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摘 要 : 模 态 是 指 事 物 发 生 或 存在 的 方式 ， 如 文字 、 语 言 、 声 音 、 图 形 等 。 FREE ARE TS MRS TAME 
态 的 信息 ， 并 且 实现 各 个 模 态 的 信息 的 交流 和 转换 。 多 模 态 深度 学 习 是 指 建 立 可 以 完成 多 模 态 学 习 任务 的 神经 网 络 
模型 。 多 模 态 学 习 的 普 PE S A E mag 展 潜力 。 旨 在 多 模 态 深度 学 
人 ， 发 现在 不 同 的 多 模 态 组 合 和 学 习 目 标 下 ， 多 模 态 深度 学 习 实现 过 程 中 
的 共有 问题 ， 并 对 共有 问题 进行 分 类 ， pi erat ety 具体 来 说 ， 从 涉及 自然 语言 、 视 觉 、 听 觉 的 多 模 
态 学 习 中 考虑 了 语言 翻译 、 事 件 探测 、 信 息 描述 、 情 绪 识 别 、 上 声音 识 别 和 合成 ， 以 及 多 媒体 检索 等 方面 研究 ， 将 多 
模 态 深度 学 习 实 现 过 程 中 的 共有 问题 分 为 模 态 表示 、 模 态 传译 、 模 态 融合 和 模 态 对 齐 四 类 ， 并 对 各 问题 进行 子 分 
和 论述 ， 同 时 列举 了 为 解决 各 问题 产生 的 神经 网 络 模型 。 最 后 论述 了 实际 多 模 态 系统 ， 多 模 态 深度 学 习 研 究 中 常 
的 数据 集 和 评判 标准 ， 并 展望 了 多 模 态 深度 学 习 的 发 展 趋势 。 

关键 词 : SRA: 深度 学 习 ; 神经 网 络 ; 模 态 表示 ; BAKE: 模 态 融合 ; 模 态 对 齐 
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Survey of multimodal deep learning 


Liu Jianwei, Ding Xihao, Luo Xionglin 
(Dept. of Automation, China University of Petroleum, Beijing 102249, China) 


Abstract: A modality refers to the way in which something happens or is experienced, such as word, language, sound, 


picture and so on. Multimodality is a combination of two or more modalities. Multimodal learning refers to learning the 


information of each modality in the multimodality, and realizing the exchange and conversion of information of each 


modality. Thus, Multimodal deep learning is the establishment of a neural network model that can accomplish multimodal 


learning tasks. The universality of multimodal learning and the intensification of deep learning lead to the vitality of 


multimodal deep learning. This paper aims to summarize the current multimodal deep learning, find common problems in 


the implementation of multimodal deep learning under different multimodal and learning objectives, as well as making 
common problems classify and describing methods for solving various problems at the early development of multimodal 
deep learning. Specifically, this paper summarizing the current multimodal deep learning that study on natural language, 
visual, auditory, and considering the research direction such as language translation, event detection, information description, 


emotion recognition, voice recognition and synthesis, and multimedia retrieval and so on, which further concludes that there 
are four types of common problems: multimodal representation, multimodal interpretation, multimodal fusion, and 
multimodal alignment. Meanwhile, each common multimodal learning problem is sub-categorized and discussed, and the 
neural network models generated for solving the problems are listed. Finally, it introduce some actual multimodal system, 
list baseline datasets and evaluation criteria used in multimodal deep learning, and conclude with perspectives and directions 
for future research. 

Key words: multimodal; deep learning; neural network; multimodal representation ; multimodal interpretation; multimodal 


fusion; multimodal alignment 


0 as 指 建立 模型 使 机 器 从 多 模 态 中 学 习 各 个 模 态 的 信息 ， 实 
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模 态 是 指 事物 发 生 或 存在 的 方式 ， 多 模 态 是 指 两 个 或 者 。 究 到 近期 的 语言 和 视觉 模型 研究 ， 多 模 态 机 器 学 习 在 提升 机 
两 个 以 上 的 模 态 的 各 种 形式 的 组 合 。 进 一 步 解 释 模 态 和 多 模 。 ”器 对 各 个 模 态 的 认 知 能 力 、 加 深 机 器 对 各 个 模 态 的 认 知 深度 、 
态 的 话 ， 模 态 是 指 某 种 类 型 的 信息 ， 或 者 是 该 信息 的 表示 ; 实现 信息 在 机 器 环境 下 的 交流 互通 等 方面 取得 了 显著 的 成 效 。 
当 一 个 研究 或 者 数据 集中 包含 多 个 模 态 时 ， 它 是 具有 多 模 态 。 多 模 态 深度 学 习 是 多 模 态 机 器 学 习 发 展 到 现 阶段 的 必然 产物 ， 
属性 的 研究 或 者 数据 集 。 人 们 听 到 的 声音 、 看 到 的 实物 、 闻 ”多 模 态 深度 学 习 继承 了 之 前 的 多 模 态 机 器 学 习 的 学 习 任 务 和 
到 的 味道 都 是 一 种 模 态 ， 人 们 生活 在 一 个 多 种 模 态 相互 交融 。 学 习 目 的 ， 用 深度 学 习 的 方法 推进 多 模 态 机 器 学 习 的 进步 和 
的 环境 中 。 为 了 使 人 工 智能 更 好 地 理解 世界 ， 必 须 赋予 人 工 ”发展 ， 并 且 取 得 了 显著 的 进步 。 
智能 学 习 、 理 解 和 推理 多 模 态 信息 的 能 力 。 多 模 态 机 器 学 习 多 模 态 机 器 学 习 研 究 起 源 于 生活 ， 也 服务 了 


as 
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究 中 


究 


于 帮助 人 类 解决 实际 问题 。 从 20 世纪 70 年 代 开 


刘 建 伟 ， 等 : 
台 ， 在 近 几 
， 多 模 态 研究 分 为 四 个 发 展 时 期 ， 即 人 类 行为 
多 模 态 计算 机 处 理 研究 、 多 模 态 互动 研究 和 多 


BLAS DRE I 
人 类 的 心理 行为 和 动作 行为 两 方面 展 


究 。 在 人 类 行为 多 模 态 研究 时 期 ， 研 究 者 从 


开 研 究 。Mulligan 等 人 


山系 统 地 研究 了 人 类 在 接受 单个 信号 和 多 个 信号 的 不 同情 况 


下 , 人 类 心理 


活动 的 表现 差异 ; McgurkP] 论 述 了 包含 相同 信 


息 的 模 态 (人 类 交流 活动 中 的 嘴唇 动作 和 声音 ) 在 人 类 信息 


ra 


E 解 和 交互 中 


了 top5 错误 率 3.79% 的 超越 人 类 的 表现 。 神 经 网 络 对 


ChinaXiv 合 作 其 


AT! 
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图 像 的 


觉 ， 语 音 识别 、 机 器 翻译 等 领 
了 巨大 突破 。 


或 也 随 着 


场景 下 的 表现 


多 模 态 深度 学 习 的 发 展 给 多 模 态 机 器 学 习 带 来 了 
的 发 展 ， 使 得 多 模 态 机 器 学 习 完 成 了 巨大 的 飞跃 。Tadas09 


总 结 了 多 模 态 机 器 学 习 的 下 


的 相互 作用 和 影响 。 在 多 模 态 计算 机 处 理 研 究 


时 期 ,下 
训练 和 解决 实 


统 (audio-visual speech recognition, AVSR), 联合 视频 和 声音 两 


究 者 开始 使 用 计算 机 对 不 同 的 多 模 态 问题 进行 建 模 、 


际 多 模 态 问题 。1984 年 ，PetajanD] 提 出 了 第 一 


个 联合 视频 和 声音 两 个 模 态 进 行 语 音 识 别 的 视听 语音 识别 系 


3J, ÆH 


后 的 发 展 中 需要 克服 的 五 个 所 
AMEE. BEAST. BAS fi 


出 合 和 合作 学 习 。 


同 的 多 模 态 组 合 和 学 习 


个 模 态 进行 


声音 识别 系统 上 实 


优秀 


表现 出 其 
给 


理 研究 时 期 的 


模 态 机 器 学 习 带 来 了 深远 的 影 


度 学 习 时 期 ，AVSR 始终 在 各 个 时 
角色 。 除 此 之 外 ， 在 多 模 态 计算 机 处 理 研究 时 其 
时 也 致力 于 人 机 交互 研究 和 多 媒体 


音 识别 的 结果 在 原来 的 只 有 单 模 态 声音 输入 的 
钢 了 大 幅度 的 飞跃 ， 多 模 态 机 器 学 习 开 始 
处 理 能 力 。AVSR 的 提出 和 发 展 
向 ， 自 从 多 模 态 计算 机 处 
1986 年 实现 第 一 个 AVSR 系统 ， 到 如 今 的 深 
期 都 扮演 了 一 个 先行 者 的 
， 研 究 者 后 
计 息 的 计算 机 处 理 技术 研 


的 数据 学 习 和 


神经 网 络 系统 


wot 
= 


、 图 像 理解 
动 地 整合 视频 
成 一 个 包含 数 


个 阶段 中 ， 数 学 建 模 技术 的 发 展 和 创新 ， 如 卷 积 让 
(convolution neural network, CNN) 和 BP 算法 的 提出 、 高 莫 


合 隐 马 尔 可 夫 
能 力 ， 给 之 后 
态 互 动 研究 时 
作用 关系 的 学 


综合 能 力 。 在 


中 以 建立 全 新 的 接受 多 种 输入 信息 ， 可 以 实现 


Ro 在 人 与 机 器 交流 的 研究 中 ，Krueger 中 提出 了 一 个 基于 视 
频 识别 技术 的 人 机 互动 沉浸 式 环境 Fels 等 人 四 构建 了 一 个 


| 算 机 处 理 多 媒体 信息 的 研究 中 ，Christel EASA 


， 将 捕捉 到 的 手势 信号 转换 成 声音 信号 。 在 用 


音 识 


语 
、 机 器 翻译 等 机 器 学 习 成 果 ， 使 计算 机 能 够 自 
中 的 声音 、 图 片 和 语句 等 各 模 态 的 信息 ， 并 生 
字 视 频 、 声 音 和 语句 的 可 检索 的 数据 库 。 


模型 的 提出 等 ， 也 极 大 地 提升 了 计算 机 
的 多 模 态 深度 学 习 建 立 了 坚实 的 基础 。 在 多 模 
期 ， 研 究 者 通过 对 模 态 内 和 各 模 态 之 间 籽 
习 研 究 ， 提 高 了 各 模 态 数据 上 机 器 学 习 和 认 知 
模拟 人 类 的 多 模 态 学 习 过 程 方 面 ，CALO 工程 
EE, ITAN 


令 、 解 释 


我 


行为 并 总 结 经 验 的 和 帮助 人 处 理 一 些 计算 任务 


的 助手 软 
手机 助手 Siri 
动 标注 会 议 信 
者 身份 ， 帮 助 


FI 


目标 ， 进 行 了 多 模 态 交互 研究 ， 并 衍生 出 苹果 
等 产品 ;IDIAP 工程 身 开发 会 议 助手 软件 ， 自 
息 中 的 各 模 态 的 数据 ， 如 语音 转录 和 会 议 参与 
用 户 根据 会 议 中 的 各 模 态 的 信息 对 会 议 档案 等 


进行 浏览 ， 帮 助 
，Orhan 
钢 对 视频 中 


检索 方面 
= A np 


Bum, Æ 


TPES WU BOR. FES ME 
等 人 是 综合 视频 中 的 声音 、 图 像 等 多 模 态 
了 件 、 对 象 交 叉 模 态 的 语义 检索 。 此 外 ， 


| 


在 机 器 学 习 算 
叶 


(conditional random fields) 模 型 等 。 


法 方面 ， 研 究 者 也 进行 了 各 种 探索 ， 如 动态 贝 


斯 网 络 (dynamic Bayesian networks) 和 条 件 随 机 场 


多 模 态 学 习 发 展 至 今 已 进 


入 多 模 态 深度 


学 习 时 期 ， 近 年 来 计算 机 技术 和 大 规模 数据 身 


aur 


处 理 


技术 的 迅速 发 展 ， 神 经 网 络 (artificial neural networks, 


ANN) 的 高 热度 有 


究 ,都 给 深度 学 习 带 来 了 新 的 生命 力 和 活力 ， 


刺激 了 深度 学 
也 在 深度 学 习 
度 学 习 成 为 了 


2012 年 卷 积 


人 的 识别 准确 


习 在 各 个 方面 的 研究 和 应 用 ， 多 模 态 机 器 学 习 


视觉 、 声 音 这 三 个 方向 上 ， 


模 态 表示 、 模 态 传译 、 模 态 对 齐 和 模 
(co-learning) 主要 围绕 数据 与 数据 之 间 的 关系 ， 
模 态 深度 学 习 中 神经 网 络 的 构造 。 在 本 文 
针对 各 应 用 场景 ， 妇 


态 融 合 ， 合 


强大 处 理 能 力 ， 同 时 也 促进 着 多 模 态 深度 学 习 在 图 像 行为 探 
测 、 图 像 标注 、 图 像 问 答 等 应 。 除 计算 机 视 


经 网 络 的 引入 取得 


革命 性 


究 情况 ， 提 出 围绕 多 模 态 机 器 学 
bi: 模 态 表示 、 模 


本 文 则 在 针对 多 
模 态 深度 学 习 的 发 展 前 期 ， 总 结 当前 的 多 模 态 深度 学 习 在 不 


a 


标 下 ， 其 实现 过 程 中 的 四 个 挑战 一 
作 学 习 
不 涉及 多 


thin! 


生成 、 事 件 探 测 、 图 


9 像 和 视频 描述 、 
跨 媒体 检索 等 ， 展 开 对 各 个 挑战 的 论述 。 表 1 
表 中 tw 


g 


H, 在 


深度 学 习 的 各 应 用 场景 涉及 的 主要 问题 。 


用 场景 涉及 问题 类 别 ; 


四 部 识别 和 表情 


概括 了 


“+” 的 个 数 表 示 应 | 


难度 ;“-” 表 示 应 用 场景 未 涉及 问题 类 别 。 


K1 
Table 1 


多 模 态 深度 学 习 的 各 应 


Challenge involved in various application scenarios of 


multimodal deep learning 


场景 涉及 的 问题 


0 语音 


然 语 言 、 


识别 和 
分 析 、 
多 模 态 
表示 应 


场景 完成 问题 的 


研究 方向 


多 模 态 深度 学 习 的 应 


模 态 表示 模 态 传译 模 态 对 齐 模 态 融合 


语音 识别 和 生成 
视听 语音 识别 
语音 生成 
事件 探测 
片 识别 
ERA 


a 
并 


OG be be SS 
SH 


HF HR HE at 


视频 
图 像 
视觉 对 话 
多 媒体 检索 
跨 媒体 检索 
自然 语音 处 理 
机 器 翻译 


ey 


++ 


++ 


1 RSRK 


在 机 器 学 习 领 域 ,提取 一 个 或 多 个 模 态 数 # 


即 学 习 出 一 个 或 多 个 模 态 的 表示 ， 一 直 是 


昌 的 语义 信息 ， 


个 充满 挑战 的 问 


题 ， 本 文 将 这 个 问题 定义 为 模 态 表示 。 


度 学 习 的 基础 ， 


指 对 单个 模 态 信息 进行 线 


生 或 非 线性 


的 浪潮 下 实现 了 长 足 的 进步 和 发 展 ， 多 模 态 深 
多 模 态 机 器 学 习 的 主流 。 在 图 像 识 别 方面 ， 自 
和 经 网 络 第 一 次 在 ImageNet 数据 集 上 展现 出 惊 
率 后 ， 卷 积 神经 网 络 在 之 后 的 历届 比赛 中 不 断 


的 刷新 纪录 ， 


在 2017 年 最 后 一 届 ImageNet 比赛 中 ， 取 得 


单 模 态 表示 中 的 主要 处 理 对 象 ， 


决 射 ， 


分 为 单 模 态 表示 和 多 模 态 表示 。 单 模 态 表示 
产生 单个 模 态 信 
息 的 高 阶 语义 特征 表示 。 语 句 、 图 像 、 视 频 、 声 音 等 模 态 为 


模 态 表示 是 多 模 态 深 


且 不 同 的 模 态 有 不 同 


的 适用 


的 神经 网 络 模型 。 多 模 态 表示 基于 单 模 态 表示 ， 并 对 单 模 态 
表示 的 结果 进行 约束 。 多 模 态 表示 指 采用 模 态 共 作 用 语义 表 


示 或 者 模 态 约 束 语义 表示 的 方法 ， 对 各 模 态 信息 进行 处 理 ， 


使 得 包含 相同 或 相近 语义 的 模 态 信息 也 


有 相同 或 相 


近 的 表 
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示 结 果 。 单 模 态 表示 是 多 模 态 表示 的 基础 ， 且 单 模 态 表示 应 ”者 在 加 权 平 均 的 过 程 中 忽略 了 单词 先后 顺序 ， 后 者 的 核心 是 
包含 该 模 态 输入 的 全 部 有 效 信息 ; 多 模 态 表示 是 单 模 态 表示 。 ”句子 的 解析 ， 其 适用 对 象 局 限于 句子 。 为 解决 这 些 不 足 ， 研 
的 发 展 ， 其 应 包含 混合 数据 中 各 模 态 的 信息 。 究 者 在 此 模型 的 基础 上 提出 了 多 种 新 型 且 有 效 的 模型 ， 并 在 

本 章 从 神经 网 络 的 角度 对 模 态 表示 展开 探讨 ， 理 解 在 神 其 他 种 类 的 神经 网 络 模 型 上 进行 了 尝试 。 基 于 传统 的 前 向 神 
经 网 络 的 作用 下 ， 产 生 一 个 模 态 或 多 个 模 态 的 向 量 表示 的 过 AWM, Le 等 人 1 提出 段落 向 量 的 记忆 分 布 模型 (distributed 


程 ， 即 模 态 表示 在 深度 学 习 方 向 上 的 发 展 。 memory model of paragraph vectors, PV-DM)， 在 该 模型 的 
1.1 单 模 态 表示 预测 过 程 中 计算 一 个 段落 对 应 的 段落 向 量 。 在 卷 积 神经 网 络 
在 本 节 中 ， 为 方便 讨论 ， 将 单 模 态 表示 分 为 语句 模 态 的 上 ，Kalchbrennert'4l 等 人 用 一 个 卷 积 语句 模型 对 某 个 语句 的 


表示 、 视 觉 模 态 的 表示 和 声音 模 态 的 表示 三 种 。 在 各 个 分 类 ”n-grams 表示 进行 处 理 , 将 语句 的 n-grams 表示 映射 为 由 固定 

下 进一步 进行 子 分 类 ， 将 语句 模 态 的 表示 分 为 单词 模 态 的 独 ”维度 向 量 构 成 的 向 量 序列 ; Zhang 等 人 0 构造 了 一 个 编码 器 - 

热 表 示 、 单 词 模 态 的 低 维 空间 表示 、 单 词 序列 模 态 的 袋子 表 ”解码 器 模型 ， 在 编码 器 部 分 用 卷 积 神经 网 络 获得 了 句子 的 向 

示 和 单词 序列 模 态 的 低 维 空间 表示 ; 将 视觉 模 态 的 表示 分 为 ” 量 表示 ， 其 编码 器 结构 如 图 1 所 示 ， 编 码 器 的 输入 是 长 度 为 
12 


图 像 模 态 的 表示 和 视频 模 态 的 表示 ; 将 声音 模 态 的 表示 分 为 ”60 的 句子 ，x 为 语句 经 线性 映射 后 产生 的 向 量 序列 ， 该 向 量 

声音 特征 向 量 的 提取 和 提取 特征 向 量 的 高 阶 表示 。 序列 被 两 个 卷 积 层 非 线性 映射 为 一 个 句子 模 态 表示 向 量 。 在 

1.1.1 语句 模 态 的 表示 递归 神经 网 络 上 ，Cho 等 人 0 使 用 单 层 的 递归 神经 网 络 将 序 
7 _ oe 列 单词 映射 为 一 个 国定 维度 的 隐 层 向 量 。 在 之 后 的 发 展 过 程 
FA Ta) RAS A SER. HE =[ x1, % 9-0-3 A ROA È ; 
RASHIAN « AEE xl ] 表示 “个 句子 ， 中 , Sutskever 等 人 [7 使 用 一 个 多 层 的 长 短 记忆 神经 网 络 将 一 


其 中 二 是 第 ;个 单词 的 独 热 表 示 向 量 。“ 是 一 个 维度 等 于 词 。” 个 语句 映射 为 一 个 固定 维度 的 向 量 ; Bahdanau 等 人 03 使 用 双 

包含 的 单词 个 数 且 元 素 取 值 为 0,1 向 量 ， 且 只 有 一 个 元 素 句 递归 神经 网 络 将 一 个 语句 编码 成 一 个 向 量 对 序列 ， 且 每 个 
值 为 1， 其余 元 素 都 为 0, 值 为 1 的 元 素 在 向 量 中 的 位 置 与 句 量 对 都 包含 了 这 个 向 量 所 对 应 单词 的 周围 单词 的 信息 ; 刘 
所 表示 的 单词 在 词典 中 的 位 置 坐标 相同 。 在 对 语句 进行 单词 。 宇 脑 等 人 tJ 提出 层次 化 递归 神经 网 络 ， 在 底层 使 用 训练 好 的 
级 别 的 处 理 时 ， 如 对 各 个 单词 的 词性 (动词 、 名 词 等 )、 态 度 ”循环 神经 网 络 生 成 包含 了 输入 语句 的 短语 和 结构 信息 的 词 向 
倾向 〈 积 极 、 消 极 等 ) 和 表示 内 容 《〈 实 物 、 抽 象 概念 等 ) 等 


量 。 综 合 各 种 模型 后 ， 由 于 递归 神经 网 络 的 输入 序列 长 度 可 
某 个 方面 进行 分 类 ， 基 于 单词 独 热 表示 的 语句 模 态 的 表示 有 变 以 及 当前 输出 与 之 前 输入 有 关 等 特性 ， 递 归 神 经 网 络 成 为 
很 好 的 表现 。 单 词 模 态 的 独 热 表 示 仅 把 语句 模 态 所 包含 的 单 ”句子 模 态 处 理 中 非 线性 映射 的 主流 模型 。 
词 或 字 进 行 了 简单 的 向 量化 替换 ， 按 此 模 态 表示 的 进一步 要 XI 
求 是 数据 语言 可 以 反映 出 单词 或 字 的 语义 信息 。 “hy 
单词 模 态 的 低 维 空间 表示 。 分 布 性 假设 指 一 个 单词 或 字 P e cy 
包含 的 信息 被 其 上 下 文中 的 单词 确定 ， 而 不 是 由 单词 或 字 本 of G7) Cf 7 Cf > 
身 决定 ， 例 如 北京 、 东 京 等 首都 城市 名 称 上 下 文中 的 单词 相 A A Rae 500 
似 程度 较 高 ， 这 类 单词 或 字 的 语义 信息 就 相近 。 用 = xm 线 A A 
性 方程 创建 一 个 语义 空间 ， 其 中 * 为 一 个 单词 或 字 的 独 热 表 ~ 
RERE, W 常 为 一 个 在 神经 网 络 模型 上 学 习 得 到 的 转换 矩阵 ， 300x60 
x 是 该 单词 或 字 在 语义 空间 中 的 向 量 ， 在 语义 空间 中 ， 包 含 图 1 编码 器 结构 
的 信息 相近 的 单词 或 字 的 表示 向 量 距 离 较 近 0 。 Fig. 1 Structure of encoder 
单词 序列 模 态 的 袋子 表示 。 单 词 序列 指 长 度 不 定 的 ， 单 在 本 节 中 从 单词 和 单词 序列 两 个 方向 展开 论述 ， 单 词 模 
词 顺 序 明确 的 单词 串 , 包括 短语 、 句子、 段落 和 文档 。 假定 * 态 的 独 热 表示 和 单词 序列 模 态 的 袋子 表示 从 统计 的 观点 出 发 ， 
表示 一 个 单词 序列 ，* 是 一 个 维度 等 于 词典 包含 的 单词 个 数 。 ”产生 了 单词 模 态 和 单词 序列 模 态 的 向 量 表示 ， 单 词 模 态 的 低 
且 元 素 取 值 为 0,1 的 向 量 ， 值 为 1 的 元 素 在 向 量 中 的 位 置 与 。 维 空间 表示 和 单词 序列 模 态 的 低 维 空间 表示 从 探索 自然 语言 
单词 序列 中 包含 的 所 有 单词 在 词典 中 的 位 置 相同 ， 其 余 元 素 。 “语义 的 观点 出 发 ， 产 生 了 单词 模 态 和 单词 序列 模 态 的 向 量 
为 0。 在 对 单词 序列 进行 数据 处 理 时 ， 袋 子 表示 是 其 最 基本 ” 示 。 由 统计 观点 获得 的 对 应 模 态 的 向 量 表示 忽略 了 语句 模 态 
的 表示 形式 .袋子 表示 忽略 了 词语 在 单词 序列 中 的 先后 顺序 ， 。 中 固有 的 单词 的 前 后 顺序 信息 ， 加 剧 了 数据 稀疏 ， 且 未 能 提 
考虑 词语 顺序 后 ， 句 子 袋 子 模型 衍生 出 句子 n-grams 袋子 模 。” 取 语句 的 语义 信息 。 与 其 相对 应 的 语义 观点 则 很 好 地 解决 了 
型 。n-grams 袋子 模型 指 建 立 n-grams 词典 , 按照 袋子 模型 的 。 上 述 问题 ， 对 单词 模 态 的 独 热 表示 和 单词 序列 模 态 的 袋子 表 
方法 ， 产 生 一 个 维度 为 n-grams 词典 元 素 个 数 的 表示 句子 的 。 ” 示 进 行 深度 的 语义 提取 ， 产 生 了 低 维度 的 、 包 含 了 对 应 的 单 
0,1 向 量 。n-grams 袋子 模型 极 大 地 增加 了 数据 维度 ， 且 加 剧 。“ 词 和 单词 序列 语义 信息 的 向 量 表示 。 
了 数据 稀疏 。 袋 子 表示 和 n-grams 袋子 表示 与 单词 的 独 热 表 ”1.1.2 视觉 模 态 的 表示 
示 相 似 ， 简 单 且 有 效 ， 并 且 基于 袋子 表示 和 n-grams 袋子 表 视觉 模 态 分 为 图 像 模 态 和 视频 模 态 ， 视 频 模 态 在 时 间 维 
示 的 语言 模型 常 能 获得 较 准 确 的 结果 ， 但 是 都 没有 考虑 单词 。 度 上 展开 后 是 一 个 图 像 序列 。 因 此 ， 学 习 视觉 模 态 的 向 量 表 
的 语义 信息 。 示 的 关键 问题 是 学 习 图 像 模 态 的 向 量 表示 。 在 图 像 模 态 表示 
单词 序列 模 态 的 低 维 空间 表示 。 单 词 序列 模 态 的 低 维 空 。 ”的 发 展 过 程 中 ， 多 层 感知 器 在 对 图 像 进行 处 理 时 结果 较 差 ， 
间 表 示 指 获取 单词 序列 模 态 的 语义 表示 ， 即 将 单词 序列 映射 ”不 能 有 效 地 学 习 图 像 特征 ,并 且 还 存在 训练 参数 过 多 等 问题 ， 


到 语义 空间 中 。 在 早期 的 获取 单词 序列 模 态 的 语义 表示 的 探 ” ” 卷 积 神经 网 络 很 好 地 解决 了 这 些 问题 ， 使 得 图 像 处 理 完成 了 
索 中 ， 最 简单 的 方法 就 是 加 权 平 均 单 词 序列 中 各 单词 的 语义 大 突破 。 基 于 图 像 表示 的 发 展 ， 视 频 模 态 表 示 的 研究 者 使 
表示 向 量 ， 还 有 一 种 较 复杂 的 方法 是 按照 句子 解析 树 的 单词 单 通道 卷 积 神经 网 络 和 双 通 道 卷 积 神经 网 络 产 生 了 视频 模 
顺序 ， 将 句子 组 织 为 矩阵 。 这 两 种 方法 都 有 各 自 的 缺点 ， 前 的 表示 。 


Fa] 


记 oo 星 


1.1.3 图 像 模 态 的 表示 
在 深度 学 习 中 ， 卷 积 神经 网 络 是 在 多 层 


区 


区 得 了 优异 的 效果 。 在 
网 络 中 ， 卷 积 和 池 化 操作 对 图 像 进行 特 和 
将 卷 积 和 池 化 操作 提取 的 特征 矩阵 输入 全 连接 


刘 建 伟 ， 等 : 


的 基础 


到 像 而 特别 设计 的 一 种 深度 学 习 方 法 ， 在 


区 


LeNet-5 的 输入 为 包含 数字 


E 提 取 ， 


的 深度 ,使 得 GoogLeNet 能 够 产生 更 


经 网 络 提取 的 特 生 
Ai, (HE ECIHKA BSA 
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o Inception 模块 从 纵向 和 横向 上 ， 增 加 了 卷 积 层 


于 像 模 态 的 矩阵 


E 表 示 已 经 能 够 很 好 地 包含 


= 


Z, PERRIER. FEAT, TERA A H 


CapsNet, >? 


全 局 均 


的 卷 积 神经 网 络 展开 论述 ,如 LeNet-5、AlexNet、 
VGG, GoogLeNet, ResNet, i 
化 操作 理解 为 产生 图 像 模 态 和 矩阵 


神经 网 络 
的 过 程 ， 将 


层 必 人 然 会 损失 一 些 有 效 
提出 了 CapsNet. CapsNet 是 卷 积 神经 网 络 


E AJEA A 


有 元 是 capsu 


名 和 


Filo ASR RIX 


le, capsule 是 一 组 


出 都 是 向 量 形式 ， 疝 上 


村 征 的 参数 表示 ,并且 


均值 池 化 层 的 输入 理 


络 LeNet-5P0 能 以 极 高 的 精度 实 
1， 且 应 用 于 信封 邮编 识别 和 车 牌 识 别 中 。 


维度 变化 后 获得 全 连接 层 上 
的 高 性 能 反映 出 其 网 络 结构 对 


研究 者 在 LeNet-5 


Vk 取 能 力 ， 即 产生 包含 字母 或 数字 的 民 
9 矩阵 表示 和 向 量 表示 的 能 力 。 
da Mb FL AE GET 


H4 


区 


经 网 络 以 拓展 其 对 
H AlexNet、 VG 
也 提高 了 图 像 识 别 


Et 


RZEP 
E R 像 ， 即 图 像 模 态 的 矩阵 表示 ， 4 


于 像 模 态 的 向 量 表 


山手 写 体 数 


像 ， 经 过 卷 积 和 
| RA 


的 输入 , 即 图 像 模 态 的 向 量 表示 。 


图 片 


HF 和 深度 学 习 技术 也 


像 模 


的 基础 上 提出 了 更 加 复杂 和 高 效 的 卷 积 神 


够 在 每 个 capsule 层 上 产 和 


算法 相连 ， 实 现 参数 选 


的 每 个 元 素 都 
相 邻 的 两 个 capsule 
。 因 此 ，CapsNet 


且 使 / 


EL UR SEB 
动态 路 由 算法 代替 池 化 层 ， 避 免 


在 模 态 表示 


在 卷 积 神经 网 络 结构 发 展 


当下， 其 提 
筷 。 在 之 后 的 发 展 
增加 网 络 的 深度 以 提取 更 为 抽象 的 语义 信息 ， 增 加 对 卷 积 神 
探索 其 产生 语义 信息 的 过 程 。 


经 网 络 的 结构 的 理解 
he Tt » 


E 度 上 的 图 像 序列 


1 的 方向 和 空间 


的 角度 去 理解 卷 积 神经 网 络 ， 


过 程 中 的 进步 。 


取 的 图 像 模 态 表示 


到 像 模 态 的 特征 提取 能 力 ， 在 近 几 和 
G、GoogLeNet、ResNet 等 网 络 ， 极 
的 精度 。 与 LeNet-5 #HEK, AlexNet!?4 
通过 更 多 的 卷 积 和 池 化 操作 以 及 归 一 化 处 到 


FE 逐步 


和 dropout 等 训 


的 卷 积 层 和 池 化 层 于 像 的 矩阵 表示 ， 


东方 法 ,在 网 络 深 


示 。 与 AlexNet 增加 神 


二 增加 网 络 深度 获取 了 包含 图 像 深度 语义 
经 网 络 深度 的 方式 不 同 


息 的 特征 表 


GI 通过 


性 。 空 间 属性 指 图 像 序列 中 
上 中 相 邻 图 像 的 相互 
日 


示 应 该 包含 视频 的 空间 和 
卷 积 神经 网 络 提取 ， 时 间 属 | 


ZÍ 
Hl 


经 网 络 对 视频 中 邻近 的 


时 间 两 个 属性 信 


K] 
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构建 含有 多 个 卷 积 子 层 的 卷 积 层 实现 网 络 深度 的 拓 


展 ， 它 每 


sr 


JR ERIZE AGAR 
E 的 精细 抓 取 。VGG 的 结构 使 得 


的 语义 特征 ， 获 得 更 好 的 攻 


络 的 深度 ， 但 是 发 


为 获得 更 好 的 图 像 模 态 表示 ， 刀 


岗 当 网 络 深度 增 


PI 


chinaXiv 


像 模 态 表 示 反 而 不 能 更 好 地 


RE 


性 探索 的 深度 卷 积 网 络 ， 由 融合 了 恒 


是 在 增加 网 络 深度 贡 


E 栈 后 构成 。 当 在 网 络 已 经 到 达 最 优 情 } 
深层 网 络 运 算 时 ， 构 造 性 模块 


的 残 差 映 射 将 被 置 0， 只 


j， 这 样 使 网 络 在 更 深 的 


4 络 层 上 也 处 于 最 优 。 


esNet 结构 简单 精巧 , 使 得 随 着 卷 积 层 


的 深度 的 增 


些 网 络 对 卷 积 或 


加 复杂 的 运算 , 获 


k, Inception 模块 


7 


S| (BOREAS FY FB BEES AT LB SC I AR 
少 ， 在 全 连接 层 前 产生 一 个 更 加 抽象 到 像 语 义 信息 的 
下 像 模 态 向 量 表示 。 
4 神经 网 络 都 是 使 用 常规 池 化 操作 对 图 
区 ， 完 成 图 像 模 态 表 示 。 除 此 之 外 ， 还 存在 一 
也 化 操作 进行 变形 ， 对 图 像 进行 特征 提取 ， 
如 像 模 态 表示 。NIN(network in network)!?4 了 卷 积 层 
的 改进 算法 Mlpconv 层 ，Milpconv 层 在 每 个 感受 野 中 进行 更 
得 高 度 非 线性 的 图 | NIN 
全 局 均值 池 化 代替 全 连接 层 ， 像 的 向 量 表示 ， 


络 的 泛 化 能 力 。 受 NIN 的 激发 ，GoogLeNetD25 提 出 


有 高 效 表达 特征 
s 3x3, 5x5 三 种 尺寸 的 卷 积 核 ， 以 及 一 个 3x3 的 下 


同 尺寸 的 卷 积 核 赋 给 Inception 模块 提取 不 同 尺 寸 的 


FE 的 能 力 ， 它 


4 前 的 视频 模 态 的 深度 学 习 文 献 ， 


把 视频 模 态 的 表示 分 成 单 通道 卷 积 
申 经 网 络 (two-stream convolutional networks, TSCN) 和 
经 网 络 三 种 。 2 (a) 和 
神经 网 络 和 双 通 道 卷 积 神经 网 络 和 


经 网 络 、 双 通 


卷 积 神经 网 络 


(a) 单 通道 卷 积 神经 网 络 


(a)One-stream convolutional networks 


23 间 | 信息 输入 卷 积 神经 XX) 一 


a 


时 间 信息 输入 BIRIA 


(b) 双 通道 卷 积 神经 网 


(b)Two-stream convolutional networks 


pa 


2 ”获取 视频 模 态 表示 的 


两 种 神经 网 络 结构 


究 者 可 以 继续 


eS 
> 
mk 
fell 


nF S| Ry 
em oe Hy ot 


Cb) 分 别 表示 单 通道 卷 积 
的 结构 。 


201905.00048v1 


a 
C] 


chinaXiv 


ChinaXx iv ERAT 


= 


录用 定稿 刘 建 伟 ， 等 : 多 模 态 深度 学 习 综 述 第 37 卷 第 6 期 
Fig.2 Two neural network structures for video modal representation 会 读 取 每 个 时 刻 的 图 像 帧 或 运动 图 像 的 向 量 表示 并 产生 一 个 


单 通道 卷 积 神经 网 络 处 理 对 象 为 视频 中 一 段 连续 的 图 像 ” 隐 变 量 ,该 隐 变 量 随 着 时 间 更 新 。 在 单 通道 卷 积 神经 网 络 上 ， 
帧 ， 它 用 一 个 卷 积 神经 网 络 完成 这 段 连续 的 图 像 中 的 时 间 和 Donahue 等 人 B4 在 卷 积 神经 网 络 后 添加 一 个 双 层 LSTM 网 络 ， 
空间 信息 融合 ， 并 在 卷 积 神经 网 络 的 全 连接 层 前 产生 这 段 连 。 用 卷 积 神经 网 络 提取 视频 的 图 像 帧 中 的 信息 ， 用 双 层 LSTM 
续 的 图 像 帧 的 向 量 表示 。 单 通道 卷 积 神经 网 络 提取 视频 的 时 网络 学 习 图 像 帧 的 时 间 信 息 ， 产 生 融 合 了 视频 的 空间 和 时 间 
空 属 性 常 有 两 种 方式 ，a) 改 变 卷 积 神经 网 络 的 结构 ， 在 其 输 言 息 的 隐 和 变量 。 在 双 通 道 卷 积 神经 网 络 上 ，Wu ABEN 
入 端 或 输出 端 融合 视频 的 时 间 属 性 和 空间 属性 ; b) 采 用 3D ”通道 卷 积 神经 网 络 的 两 个 卷 积 神经 网 络 的 全 连接 层 后 各 添加 
卷 积 核 ， 使 用 卷 积 计算 融合 视频 的 时 间 属 性 和 空间 属性 。 在 。 ”一 个 双 层 LSTM 网 络 , 用 LSTM 神经 网 络 学 习 图 像 帧 的 空间 
单 通道 卷 积 神经 网 络 中 ，Karpathy 等 人 P27 将 视频 分 片 ， 每 片 。 和 时 间 信 息 ， 以 及 运动 图 像 的 时 间 和 空间 信息 ， 产 生 两 个 在 
都 包含 个 数 固定 的 在 时 间 上 邻近 的 多 个 帧 ， 以 片 作为 卷 积 神 ” 不 同 层面 融合 了 视频 的 时 间 和 空间 信息 的 隐 变 量 。 
经 网 络 的 处 理 对 象 ， 并 构造 了 后 融合 、 前 融合 和 慢 融合 三 种 本 节 总 结 了 当前 产生 视频 模 态 表示 的 神经 网 络 的 模型 ， 
用 卷 积 神经 网 络 在 时 间 维 度 上 融合 片 所 包含 的 时 间 和 空间 信 ”按照 其 网 络 结构 的 不 同 ， 将 其 分 为 了 单 通道 卷 积 神经 网 络 、 
息 的 方式 ， 使 得 卷 积 神经 网 络 可 以 提取 不 同 抽象 层次 的 视频 ”” 双 通道 卷 积 神经 网 络 和 混合 神经 网 络 ， 介 绍 并 举例 说 明 各 类 
时 空 特性 ， 在 全 连接 层 上 获得 视频 横 态 的 深度 表示 。Jic8l 和 ”模型 的 网 络 结构 的 特点 。 单 通道 卷 积 神经 网 络 和 基于 其 的 泥 
Tran PIRH 3D 卷 积 核对 多 个 连续 图 像 帧 的 堆 受 形成 的 输入 合 网 络 产生 一 个 融合 了 视频 的 空间 和 时 间 信 息 的 向 量 表示 ， 
进行 卷 积 运算 ， 用 3D 卷 积 核实 现 对 视频 的 时 空 特性 的 表示 。 ” 单 通 道 卷 积 神经 网 络 和 基于 其 的 混合 网 络 产生 两 个 视频 的 向 
提取 。 量 表示 ， 分 别 包 含 了 其 空间 信息 和 时 间 信 息 。 双 通道 卷 积 字 
双 通道 卷 积 神经 网 络 的 处 理 对 象 也 是 视频 中 一 段 连续 的 经 网 络 由 于 其 对 视频 模 态 的 时 间 和 空间 信息 的 分 离 式 学 习 ， 
图 像 帧 ， 它 用 两 个 卷 积 神经 网 络 分 别 学 习 这 段 连 续 的 图 像 帧 其 学 习 到 的 视频 模 态 的 时 间 和 空间 表示 在 进行 视频 识别 等 任 
中 的 时 间 属 性 和 空间 属性 ， 并 在 两 个 网 络 的 全 连接 层 前 产生 务 中 具有 天 然 的 优势 。 因 此 ， 双 通道 卷 积 神经 网 络 为 当前 获 
这 段 连续 的 图 像 帧 的 时 间 属 性 表示 和 空间 属性 表示 。 双 通道 。 取 视 频 模 态 表示 的 主要 模型 。 
卷 积 神经 网 络 的 输入 包含 图 像 帧 输入 和 运动 图 像 输入 ， 图 像 115 声音 模 态 的 表示 
帧 输入 为 这 段 连续 的 图 像 帧 中 的 一 个 图 像 ， 其 包含 这 段 图 像 与 其 他 信号 一 样 ， 声 音 模 态 的 表示 就 是 提取 声音 信号 的 
帧 中 的 空间 图 像 输入 为 这 段 连续 的 图 像 帧 通过 光 ”语义 特征 向 量 。 在 当前 的 包含 神经 网 络 结构 的 声音 处 理 模 型 
学 等 技术 处 理 产生 后 的 向 量 图 ， 如 光 流 位 移 场合 加 等 ， 其 包 中， 声音 模 态 的 表示 主要 包含 两 个 过 程 ， 声音 模拟 信号 转换 
含 了 这 段 图 像 帧 中 的 时 间 信 息 为 声音 数字 信号 并 完成 特征 向 和 


T H 


TI 
cit 
ini 
D 


息 。 可 量 的 提取 ; 提取 特征 向 量 的 高 
Simonyan 等 人 BY 首先 构造 了 一 个 双 通 道 卷 积 神经 网 络 ， ” 阶 表 示 。 在 本 节 根 据 其 模型 结构 的 不 同 ， 将 提取 特征 向 量 的 
双 通 道 卷 积 神经 网 络 由 两 个 并 行 的 卷 积 神经 网 络 构 成 ， 其 中 高 阶 表示 的 模型 分 为 混合 模型 、 神 经 网 络 模型 、 编 码 器 -解码 


一 个 神经 网 络 的 输入 为 视频 中 单个 图 像 帧 ， 以 完成 对 视频 的 ”器 模型 三 种 结构 。 

空间 信息 表示 学 习 ;， 另 一 个 神经 网 络 的 输入 为 连续 的 多 个 帧 1.1.6 声音 特征 向 量 的 提取 
的 光 流 位 移 场 的 堆 伍 结果， 完成 对 视频 的 时 间 信 息 的 表示 学 声音 是 模拟 信号 ， 声 音 的 时 域 波形 只 代表 声 压 随时 间 变 
习 。 在 之 后 的 发 展 中 , 由 于 图 像 模 态 表示 已 取得 极 大 的 突破 ， 化 的 关系 ， 不 能 很 好 地 体现 声音 的 特征 。 因 此 ， 在 声音 特征 
视频 模 态 的 研究 者 不 断 对 视频 的 时 间 信息 的 通道 添加 更 多 的 ”提取 时 ， 首 先 应 将 采集 到 的 语音 信号 数字 化 ， 转 换 为 便于 计 
视频 时 间 属 性 信息 ， 以 获取 更 好 的 时 间 属 性 表示 。Wang 等 ” 算 机 存储 和 处 理 的 离散 的 数字 信号 序列 ， 然 后 利用 内 含 生理 
人 BY 基于 双 通 道 卷 积 神经 网 络 , 提 出 轨迹 池 化 卷 积 映射 结果 ， 学、 语音 学 相关 的 先 验 知识 的 数字 信和 号 处 理 技术 对 离散 的 数 


各 卷 积 层 的 输出 经 过 时 空 正则 化 或 者 频道 正则 化 ， 输 出 结果 字 信 号 序列 进行 声学 特征 向 量 的 提取 。 当 前 的 声音 信号 的 处 
再 经 过 轨迹 池 化 ， 用 费 舍 尔 向 量 编码 轨迹 池 化 结果 ， 形 成 视 理 技 术 主要 有 传 里 叶 变 换 、 线 性 预测 以 及 倒 谱 分 析 等 。 研 究 
频 的 时 间 信 息 的 高 维特 征 表示 。 研 究 者 还 将 双 通 道 卷 积 神经 者 基于 这 些 处 理 技术 ,提取 出 一 些 当下 普遍 适用 的 声学 特征 ， 
网 络 拓展 到 长 视频 的 处 理 中 ,通过 对 长 视频 进行 分 段 或 抽样 ， 如 梅 尔 频率 倒 谱 系数 (Mel-frequency cepstral coefficients)P637), 
产生 多 个 连续 的 图 像 帧 ， 将 每 个 图 像 帧 序列 输入 双 通 道 卷 积 感知 线性 预测 (perceptual linear predictiomB8、 线 性 预测 编码 
神经 网 络 中 产生 该 图 像 帧 序列 对 应 的 空间 和 时 间 表 示 ， 融 合 (linear predictive coding)B91 和 线性 预测 倒 谱 系数 (linear 
每 个 图 像 帧 序列 的 空间 和 时 间 表 示 后 产生 这 段 长 视频 的 空间 predictive cepstral coefficients)f5d。 为 了 进一步 增强 声学 特征 
和 时 间 表 示 。Wang 等 人 63 基 于 双 通 道 卷 积 神经 网 络 ， 提 出 的 区 分 性 ， 降 低 模型 的 复杂 度 并 提高 识别 效率 ， 研 究 人 员 提 
时 间 分 段 网 络 ， 对 视频 进行 分 段 ， 将 每 个 视频 段 进 行 时 间 和 出 一 些 用 于 特征 变换 和 特征 降 维 等 特征 加 工 方法 ， 其 中 代表 
空间 信息 提取 ， 得 到 各 分 段 视频 的 空间 和 时 间 表 示 ， 将 各 空 性 的 方法 有 主 分 量 分 析 (principal component analysis), 2% 
间 表 示 和 时 间 表 示 融 合 后 获得 整 段 视 频 的 空间 和 时 间 表 示 。 性 判别 分 析 (linear discriminant analysis)[42 和 蜡 方差 线性 判别 
Wang 等 人 63 对 未 经 数据 加 工 的 视频 进行 动作 识别 研究 ， 提 分 析 (heteroscedastic linear discriminant analysis)[43] 等 。 
出 了 均匀 抽样 或 基于 镜头 抽样 两 种 分 片 抽样 策略 ， 对 视频 进 近年 来 ， 研 究 者 还 提出 了 一 些 将 特征 提取 和 声音 模型 训 
行 抽 样 ， 使 双 通道 卷 积 神经 网 络 对 每 个 采样 视频 进行 处 理 ， 练 紧密 结合 在 一 起 的 方法 ， 如 利用 区 分 性 训练 算法 对 基础 特 
获得 每 个 采样 视频 的 空间 和 时 间 表 示 。 征 进行 变换 (比较 典型 的 有 fMPEI% 41. RDLT(region 
于 LSTM 神经 网 络 对 时 间 序 列 拟 合 的 优秀 性 能 ， 研 究 dependent linear transform)!4647]) 和 利用 不 同 的 神经 网 络 提取 
者 将 LSTM 引入 到 上 述 两 种 网 络 结构 中 ,构造 混合 神经 网 络 。 特征 (比较 常见 的 有 Tandem 特征 3,49]、bottleneck 特征 6050)。 


混合 神经 网 络 的 基本 思想 是 将 卷 积 神经 网 络 的 输出 作为 1.1.7 提取 特征 向 量 的 高 阶 表示 
LSTM 神经 网 络 的 输入 ， 将 视频 中 的 图 像 帧 或 运动 图 像 按照 在 用 神经 网 络 识别 声音 时 ， 提 取 特 征 向 量 的 高 阶 表示 是 
时 间 顺 序 依次 输入 卷 积 神经 网 络 ， 卷 积 神经 网 络 在 每 个 时 刻 ”指使 用 神经 网 络 对 提取 的 声音 特征 向 量 进行 多 级 非 线 性 映射 ， 
都 会 产生 输入 的 图 像 帧 或 运动 图 像 的 向 量 表示 ; 同时 LSTM ”学习 特征 向 量 中 包含 的 不 同 抽象 层次 的 信息 。 根 据 神经 网 络 
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在 各 声音 识别 系统 中 作用 的 不 同 ， 将 


的 信息 分 为 以 下 三 类 。 


刘 建 伟 ， 等 : 


其 学 习 的 不 同 抽象 层次 


第 一 种 情况 ， 在 包含 声音 


模型 、 语 言 模型 和 解码 器 的 声 


音 识别 系统 中 ， 神 经 网 络 常用 来 与 隐 马 尔 可 夫 模 型 (hidden 


Markov model, HMM)Y 


日 成 混合 结构 的 声 


音 模 型 ， 称 为 


ANN-HMM 混合 模型 。 


元 和 语音 特征 序列 之 间 的 关系 建 模 ， 


其 中 隐 含 


尔 可 夫 模型 用 来 对 声学 音 


其 隐 状 态 为 声学 单元 ， 


深度 神经 网 络 对 声学 特 和 
进行 建 模 ， 即 学 习 HMM RERI 
验 概率 F949， 如 给 定 的 语音 特征 序列 


E 向 量 和 隐 马 尔 可 夫 模 型 状态 的 关系 


P 给 定 的 声音 特征 向 量 的 后 
Pt 时刻 的 特征 向 量 > ， 


ANN 最 后 一 层 采 用 softmax 函数 来 计算 HMM 状态 出现 的 


概率 


Psly)= 去 一 一 
È 


8 层 对 应 的 输出 。 这 种 情况 下 ， 特 
征 向 量 的 高 阶 表示 即 为 ANN 的 输出 层 的 输出 ， 其 为 特征 向 
量 的 高 度 非 线性 映射 的 结果 ， 且 包含 了 该 特征 向 量 中 的 声学 


EL HH 


单元 信息 。 
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Bourlard 等 人 G3 首先 将 


经 网 络 引 入 声音 识别 的 声学 模 
型 中 , 建立 了 ANN-HMM 声学 模型 , 表现 出 神经 网 络 在 声音 


模型 构建 中 优秀 的 特征 表示 能 力 。 其 中 ， 神 经 网 络 的 训练 为 


有 监督 训练 。 训 练 数 据 集 中 每 个 输 
最 小 化 分 类 错误 次 数 的 方式 来 让 


入 帧 都 有 状态 标签 ， 
| 练 神经 网 络 。 神 经 网 络 的 引 
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mixture model-hidden Markov model, GAM-HMM), 用 该 模型 
生成 训练 集中 每 帧 声音 信号 的 状态 标签 ， 得 到 显示 对 齐 信和 号 
和 标签 后 ， 组 成 神经 网 络 的 训练 数据 集 ， 然 后 在 生成 的 神经 
网 络 的 训练 数据 集 上 训练 神经 网 络 ， 重 新 估计 HMM 的 转移 
概率 ， 并 更 新 训练 数据 集 。 重 复 以 上 过 程 ， 直 到 收敛 以 完成 
神经 网 络 和 HMM 的 训练 。 
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J3 DNN-HMM 混合 结构 的 声音 模型 
Fig.3 Sound model of DNN-HMM hybrid structure 
第 二 种 情况 ， 使 用 神经 网 络 构建 声音 识别 中 的 音素 识别 


通过 


入 为 构造 混合 模型 创造 了 更 加 宽 


Bourlard 等 人 的 思路 ， 研 究 者 使 


的 发 展 空间 。 沿 着 


各 种 不 同 的 神经 网 络 对 声 


ar 


进行 模 态 表示 的 学 习 ， 
示 能 力 。Hinton 等 人 [9 


网 络 和 HMM 的 多 种 混合 
DBN)， 建 立 了 DBN-HMM 声学 模型 ， 
信和 网 络 的 输出 拟 合 给 定 输入 关于 HMM 状态 的 后 验 概率 ， 


network, 


以 探索 神经 网 络 在 声音 模 态 上 的 表 


总 结 了 早期 


论证 其 构造 的 声学 模型 对 之 后 的 角 
Abdel-Hamid $E ADSIZ 


R 


和 池 化 层 ， 对 线性 频谱 和 


中 的 各 个 频率 带 的 特征 ， 
造 了 RNN-HMM 模型 ， 


系 。Sainath 等 人 57 将 CNN、 
了 一 个 可 以 降低 频率 变化 、 拟 合 输 


MERIA, HR TX 
ER, 引入 深度 置信 和 网络 (deep belief 


经 


用 深度 置 


模型 ， 即 使 用 神经 网 络 提取 特征 向 量 中 的 音素 信息 ， 获 得 特 
征 向 量 的 高 度 非 线性 映射 结果 ， 产 生 包 含 特征 向 量 音 素 信 息 
的 高 阶 表 示 ， 实 现 音素 识别 。 例 如 在 网 络 的 最 后 一 层 采用 
softmax 函数 来 计算 音素 出 现 的 概率 , 其 计算 结果 即 为 给 定 特 
的 音素 信息 的 高 阶 表示 。 
期 的 神经 网 络 模型 中 ， 研 究 者 使 用 设计 的 目标 函数 
神经 网 络 进行 训练 ， 构 建 音 素 识 别 模型 。 在 这 个 时 期 的 神 
经 网 络 的 训练 过 程 中 ， 训 练 数据 中 每 帧 声音 信号 都 有 一 个 标 


注音 素 ， 即 帧 级 对 齐 的 训练 数据 。Waibel 等 人 59 构造 了 一 个 


办 码 过 程 的 改进 作用 。 
规 的 ANN-HMM 模 型 中 添 


eure 
WEFR 


mir PY 28 (time-delay neural networks, TDNN)， 在 网 络 中 
MAMER, RAE aS P RR, HE 


梅 尔 频谱 
增加 模型 
H RNN W 
RNN 


进行 特征 提取 ， 突 出 频谱 


的 鲁 棒 性 。Sak 等 人 59 构 
A 期 依赖 关 


合 声学 信号 的 长 


和 DNN 连接 起 来 ， 构 造 


入 的 依赖 关系 的 混合 网 络 


模型 。 同 时 ， 隐 马尔 可 夫 模 型 的 发 
在 混合 模型 中 的 表现 , 并 改变 了 特 4 
在 声音 识别 的 发 展 过 程 中 ， 为 拟 合 


展 变化 也 改善 了 ; 


经 网 络 


避 量 的 高 阶 表示 的 内 容 。 


关系 ， 声 学 单元 从 单 音素 发 展 到 三 


=i 


相 邻 声音 信号 的 相互 作用 
音素 ， 隐 马尔 可 夫 模 型 发 
展 成 为 三 音 子 模型 。Dahl 等 人 中 使 用 深度 置信 和 网络 DBN 学 
习 给 定 的 特征 向 量 关 于 三 音 子 模型 中 HMM 的 状态 后 验 概率 ， 


层 网 络 来 学 习 出 一 个 非 线 性 的 决策 平面 , 实现 音素 序列 识别 。 
Graves 等 人 [9 使 用 双向 的 LSTM 完成 音素 识别 建 模 , 其 中 用 
LSTM 网 络 对 声音 的 时 间 流 进行 建 模 ， 用 双向 的 LSTM 对 一 
个 帧 以 及 其 前 后 信息 进行 建 模 , 对 一 个 序列 帧 进行 音素 识别 。 

为 省 去 数据 的 人 为 帧 级 对 齐 过 程 ，Graves 等 人 [6 构造 双 
名 LSTM 神经 网 络 模型 ， 定 义 连接 主义 和 暂 态 分 类 器 
(connectionist temporal classification, CTC) 目 标 函 数 ， 采 用 ; 


构建 了 考虑 相 邻 声音 信号 的 相互 作 


的 声音 识别 模型 ， 其 结构 如 


关系 的 CD-DNN-HMM 


图 3 所 示 。 


三 音 子 模型 将 声音 信 


号 的 依赖 关系 存储 到 HMM 隐 状 态 中 ， 这 使 得 DNN 学 习 的 
特征 向 量 的 高 阶 表示 天 然 地 包含 了 相 邻 声音 信号 间 的 依赖 关 


系 。 


经 过 长 时 间 的 实验 探索 ， 天 
声音 模型 、 语 言 模型 和 解码 器 的 声音 识别 系统 的 促进 作用 ， 
阶 表 示 的 鲁 棒 性 , RNN 能 
] 量 的 高 阶 表示 中 。 但 是 


卷 积 神经 网 络 能 1 


将 声音 信号 的 依赖 关系 添加 进 特征 
NN-HMM 混合 模型 结构 复杂 ， 
需要 控制 声音 识别 模型 各 部 分 结构 对 
此 外 ， 当 前 常用 的 混合 模型 训练 过 程 复 杂 ， 有 多 个 阶段 ， 首 
斯 混合 模型 一 隐 马 尔 可 夫 模 型 (Gaussian 


先 训 练 出 一 个 高 


兽 加 特征 向 量 的 高 


究 者 证 实 了 混合 模型 对 包含 


口 


且 在 之 后 的 模 态 传译 过 程 中 ， 


[传译 结果 的 影响 程 


KE 


有 帧 级 对 齐 的 声音 序列 和 音素 序列 对 组 成 的 训练 数据 ， 对 双 
名 LSTM 进行 训练 ,在 训练 完成 后 ,输入 要 识别 的 信号 序列 ， 
根据 神经 网 络 的 输出 结果 ， 动 态 规划 解码 产生 输入 信号 对 应 
的 音素 序列 。 在 CTC 声音 模型 23 中， 声音 信号 的 标签 集合 
L'=Lu {blank}, L 由 61 个 音素 标签 组 成 ，blank 表示 空格 标 
签 ， 且 标签 集合 二 的 元 素 个 数 为 上 =62 。CTC 声音 模型 中 的 
神经 网 络 为 RNN, 神经 网 络 的 输入 序列 为 连续 的 7 帧 声音 特 
HE Te EJEA X= Do er], 神经 网 络 的 输出 层 共 有 K =02 个 
输出 节点 ， 每 个 输出 节点 都 对 应 于 标签 集合 中 的 1 个 元 素 
kefl.…K}，¥# 为 输入 产生 的 在 输出 层 上 第 个 节点 的 输出 ， 
输入 产生 的 输出 向 量 经 softmax 函数 归 一 化 处 理 后 产生 : 


expC!) 
DexpOF) O) 


其 中 : Pr(k,t|x) 表示 上 时 刻 的 输入 向 量 * 的 分 类 结果 ， 为 第 大 
个 节点 所 对 应 的 标签 的 概率 。 定 义 对 齐 向 量 a 为 一 个 长 度 为 
T 的 ，w €{h..K}t=L..7 的 向 量 ， 如 (1,2,15,10,62,10)， 每 个 
对 齐 向 量 都 表示 一 个 标签 序列 , 共 KT 个 , 则 输入 序列 x 经 过 


Pr(k,t| x)= 


201905.00048v1 


chinaXiv 


录用 定稿 
神经 网 络 运算 产生 一 个 对 齐 向 量 4 的 概率 为 
pr(a|x)=] [Pr(a,,t|x) 


(3) 


S B 表示 将 对 齐 向 量 表示 的 对 齐 结果 a,b,- b,c) 和 
(awb-bbo) 都 转录 为 bzo 。 一 个 转录 结果 ?的 概率 等 于 与 
y 相对 应 的 对 齐 向 量 的 概率 的 加 和 : 

Pr(y|x)= >, Pr(a | x) 


(4) 
标 转录 结果 , 训练 神经 网 络 以 最 小 


令 y* 表 示 输 入 x 的 
化 CTC 为 目标 函数 : 


CTC(x) =—log Pr(y*| x) 5 (5) 


与 混合 结构 的 声音 模型 相 比 ， 神 经 网 络 构建 的 音素 识别 
模型 的 结构 和 训练 过 程 相 对 简单 ， 且 由 于 训练 目标 的 不 同 ， 
神经 网 络 构建 的 音素 识别 模型 获得 的 特征 向 量 的 高 阶 表示 主 
要 包含 特征 向 量 的 音素 信息 ， 而 非 混 合 结构 的 声音 模型 获得 
的 高 阶 表示 包含 的 声学 单元 信息 。 

第 三 种 情况 ， 用 神经 网 络 构建 编码 器 -解码 器 结构 ,构建 
声音 识别 模型 ， 其 中 用 编码 器 学 习 声音 数字 信号 的 高 阶 特征 


刘 建 伟 ， 等 : 多 模 态 深度 学 习 综 述 


模 态 共 作 用 语义 表示 
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模 态 2 模 
表示 | 


图 4 


模 态 1 表示 模 态 2 表示 
(a) 模 态 共 作用 语义 表示 


(a)Joint Representations 


模 态 1 
表示 


ABA MRAR 


一 


语义 表示 


态 3 约束 。 模 态 约束 


语义 表示 


人 @) 模 态 约束 语义 表示 


(b)Coordinated representations 


模 态 


EYE 


语义 表示 和 模 态 约束 语义 表示 


Fig.4 Joint representations and coordinated representations 


1.2.1 模 态 共 作 


用 语义 表示 


深度 学 习 中 神经 网 络 在 获取 自 


然 语 言 、 


表示 ， 且 编码 器 神经 网 络 结构 中 党 包含 RNN 结构 ， 使 得 产 
生 的 高 阶 特征 表示 中 包含 输入 特征 序列 的 前 后 帧 信息 ~69。 
在 本 节 中 重点 对 声音 信号 的 高 阶 表 示 模 型 进行 论述 ， 按 
模型 结构 不 同 将 模型 分 为 混合 模型 、 神 经 网 络 模型 和 编码 器 
一 解码 器 模型 三 类 。 各 模型 结构 的 不 同 导致 其 产生 的 声音 信 
号 的 高 阶 表示 虽然 都 能 很 好 地 包含 声音 信号 的 语义 信息 ， 但 
其 包含 的 语义 信息 各 有 侧重 : 混合 结构 的 声音 模型 获得 的 高 
阶 表示 主要 包含 的 声学 单元 信息 ， 神 经 网 络 模型 获得 的 高 阶 
表示 主要 包含 特征 向 量 的 音素 信息 ， 编 码 器 一 解码 器 结构 则 
主要 包含 特征 向 量 的 声音 的 语义 信息 。 
1.2 多 模 态 表示 

多 模 态 表示 指 包 含 多 个 模 态 数据 信息 的 表示 ， 它 是 多 个 
模 态 共用 的 语义 空间 中 的 向 量 。 一 个 好 的 多 模 态 表示 应 该 具 
有 平滑 性 、 时 间 和 空间 相干 性 、 稀 疏 性 和 自然 聚 类 等 特性 。 
此 外 ，Srivastava 和 Salakhutdinov 提出 了 多 模 态 表示 的 额 儿 
理想 特性 : 不 同 的 多 模 态 输入 对 应 的 多 模 态 表示 的 相似 性 一 
定 要 反映 出 各 多 模 态 输入 包含 信息 的 相似 性 ;， 当 缺少 某 些 模 
态 数 据 信息 时 ， 依 然 能 产生 多 模 态 表示 ; 根据 多 模 态 表示 可 
以 获得 各 模 态 的 数据 信息 [69。 
多 模 态 表示 基于 单 模 态 表示 ， 并 且 获 得 多 模 态 表示 的 最 
简单 最 常用 的 方式 就 是 串联 各 模 态 表示 。 近 期 随 着 多 模 态 研 
究 热度 的 提升 ， 获 得 多 模 态 表示 的 方法 也 随 之 得 到 了 迅速 的 
发 展 。Tadasb9 将 机 器 学 习 中 多 模 态 表示 分 为 联合 表示 和 协 
表示 ， 本 文 参 考 其 分 类 结果 ， 且 根据 多 模 态 深度 表示 在 产 4 
多 模 态 表示 过 程 中 各 模 态 之 间 的 相互 作用 关系 和 最 后 获得 的 


lk 


aH 


rt 


示 。 构 建 更 深 


经 网 络 学 习 多 模 态 数据 中 的 各 模 
网 络 结构 上 继续 构建 深层 神经 网 
用 构建 的 神经 网 络 融 合 各 模 态 的 语义 信息 获得 模 态 
义 表 示 。 由 神经 网 络 产 生 的 模 态 共 作用 语义 表示 可 以 直接 用 
于 预测 ， 即 完成 多 模 态 的 学 习 任务 。 多 模 态 的 共 作用 语义 表 
示 使 得 各 模 态 的 信息 在 产生 多 模 态 表示 的 过 程 中 已 经 完成 了 
作用 语义 与 模 态 融合 有 了 
语义 表示 构建 的 神经 网 络 络 包 


融合 ， 


交叉 和 相关 性 。 


模 态 表示 上 已 经 取得 J 
展 成 果 上 ， 构 建 更 深层 的 神经 网 


这 也 使 得 多 模 态 的 


卓越 的 成 


视觉 、 听 觉 等 单 


层 的 神经 网 络 常用 


效 ， 在 单 模 态 表示 取得 的 发 
络 以 获取 模 态 共 作 
的 方式 为 : 分 别 用 


语义 表 
合适 的 神 


态 数 据 的 模 态 表示 ; 然后 在 
络 , 其 输入 为 各 模 态 的 表示 ， 


{作用 语 


为 产生 共 作 | 


括 前 向 神经 网 络 和 递归 神经 网 络 


上 展开 论述 。 


在 产生 多 模 态 表示 的 前 向 
构 为 编码 器 一 解码 器 结构 ， 


其 中 


入 模 态 的 表示 产生 
用 语义 表示 产生 学 习 人 有 
一 解码 器 结构 的 模型 中 ， 习 
经 网 络 ， 
数 则 经 过 端 到 端的 训练 方式 产 
模型 的 预测 结 


预 训练 的 * 


EERE 


Ba 以 


人 19 构建 了 


SSW 


T 
u 


的 重 构 能 力 评价 
首先 对 各 输入 构建 解 噪 自 编码 器 


， 在 本 节 对 这 两 种 神经 网 络 


和 经 网 络 中 ， 最 


型 的 网 络 结 


编码 器 


一 个 可 以 学 习 模 态 


作用 语义 表 


示 的 性 能 。 


IF A 
LAE FATE Lean, RE AS Ne AE AY 
E 务 的 预测 结果 。 在 深层 网 络 为 编码 器 
得 各 模 态 表示 的 神经 网 络 常 为 经 
编码 器 一 解码 器 结构 的 前 向 网 络 中 的 
生 ， 从 而 获得 的 多 模 态 表示 
果 直 观 地 反映 出 。Ngiam 
作用 语义 表示 的 神经 网 
期 望 通过 观察 共 作 用 语义 表示 对 各 模 态 的 原始 输入 数 
在 整个 网 络 模型 


者 和 融合 各 输 
EYE 


模 态 表示 所 具有 的 语义 信息 ， 将 多 模 态 表示 分 为 模 态 共 作用 
语义 表示 和 模 态 约束 语义 表示 。 模 态 共 作用 语义 表示 与 联合 
表示 的 定义 类 似 ， 指 融合 各 单 模 态 的 特征 表示 ， 以 获得 包含 


各 模 态 语义 信息 的 多 模 态 表示 ， 模 态 约束 语义 表示 和 协调 表 
示 的 定义 则 不 相同 ， 指 用 一 个 模 态 的 单 模 态 表示 结果 去 约束 


以 使 其 他 模 态 的 表示 能 够 包含 该 模 态 的 语 
数学 语言 对 模 态 共 作用 语义 表示 和 
模 态 约束 语义 表示 进行 解释 。 模 态 共 作用 语义 表示 指 
Xn =f (4 s-5%,) ， 其 中 :， 辑 为 模 态 共 作 用 语义 表示 ; et 为 
各 模 态 表示 ; f 表示 神经 网 络 模型 构建 的 非 线 性 映射 ， 模 态 
约束 语义 表示 指 fWx) ， 其 中 : w 为 训练 学 习 获 得 的 x 向量 
EEIT EI x 所 在 空间 中 的 映射 箱 阵 。 


其 他 模 态 的 表示 ， 
义 信息 。 为 方便 理解 ，| 


网 络 ， 然 后 构建 深 
的 训练 ， 


REEE 


码 器 输出 层 产生 共 作 | 


基础 的 共 作 ) 


产生 的 共 作 |} 


完成 训练 ， 


取出 完成 


训练 的 解 品 自 编码 器 中 的 编码 器 作为 获取 各 模 态 表示 的 神经 
层 的 编码 器 一 解码 器 结构 的 前 向 网 络 ， 通 
俩 深层 的 编码 器 一 解码 器 前 向 网 络 能 在 编 
语义 表示 ， 在 解码 器 输出 层 重 构 各 原 
始 输入 数据 。 根 据 编码 器 一 解码 器 结构 的 特性 ， 编 码 器 一 解 
码 器 结构 中 最 简单 的 编码 器 可 以 为 一 个 级 联网 络 层 ， 在 该 层 
上 级 联 各 模 态 的 向 量 表示 ， 产 生 共 作用 语义 表示 ， 这 也 是 最 
语义 表示 产生 方式 ， 例 如 Mroueh 等 人 [7 级 联 
由 神经 网 络 学 习 获 得 的 声音 和 视觉 输入 的 表示 ， 并 根据 级 联 
语义 表示 产生 预测 结果 。 
仿照 编码 器 一 解码 器 结构 , Sohn 等 人 [6 构建 了 一 个 深度 


玻 尔 兹 曼 机 ， 以 最 小 化 各 模 态 间 的 信息 变化 为 


标 ， 训 练 深 
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chinaXiv 


录用 定稿 


表示 之 间 的 


ChinaXiv 合 作 期 刊 


刘 建 伟 ， 等 : 多 模 态 深 度 学 习 综 述 


度 玻 尔 兹 曼 机 得 到 骨 入 空间 ， 且 可 以 得 到 嵌入 空间 中 各 模 态 


类 合 概 率 分 布 ， 这 使 得 该 模型 可 以 在 某 个 模 态 缺 
失 或 损坏 的 情况 下 


， 根 据 其 他 模 态 输入 得 到 可 预测 该 模 态 信 


息 的 多 模 态 


采用 相似 的 深度 玻 尔 兹 曼 机 融合 视觉 和 听觉 模 态 ， 


表示 


递归 神经 网 络 作 为 上 层 网 络 产生 共 作 用 语义 表示 常用 在 
预测 结果 受 时 间 影 响 


< 作用 语义 表示 ; Kim 等 人 [6 在 视听 情感 识别 中 


产生 联合 


的 学 习 任务 中 ， 如 视听 语音 识别 任务 、 


视听 情感 分 析 。 在 上 层 递 归 神 经 网 络 中 ， 递 归 神 经 单元 的 隐 


状态 为 融合 了 时 间 信息 、 各 模 态 输入 信息 的 共 作 


语义 表示 。 


在 视听 语音 识别 任务 中 ， 在 每 个 时 刻 模型 的 底层 网 络 会 将 该 


时 刻 图 像 和 声音 输入 处 理 


为 图 像 模 态 表示 和 声音 模 态 表示 ， 


串联 机 


息 的 


个 模 态 表 示 作 为 上 层 递 归 神 经 网 络 的 输入 ， 此 时 递归 
神经 网 络 的 隐 表 示 即 为 融合 了 之 前 各 时 刻 图 像 和 声音 输入 信 
作用 语义 表示 。Chung 等 人 [在 此 结构 上 作出 改进 ， 


在 每 个 底 


网 络 的 输出 层 添加 LSTM, 


标 模 态 的 语义 空间 中 ， 


也 可 以 对 训练 数据 中 未 出 现 的 数据 类 型 进行 编码 ， 并 投影 到 
A 
理 


里 ， 并 产生 未 在 训练 数据 中 出 
索 合适 的 包含 约束 的 目标 函数 
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解码 器 也 可 以 对 该 投影 结果 进行 处 


岗 的 预测 结果 。 但 是 寻找 和 探 


根据 各 模 态 的 特性 结合 实验 经 验 构 造 。 


有 一 定 的 难度 ， 需 要 和 


RA 


模 态 共 作 | 


2 RA 


] 语 义 表示 和 模 态 约束 语义 表示 如 图 4 所 示 。 


模 态 传译 指 将 模 态 中 包含 的 信息 传译 存储 在 男 一 个 模 态 


中 ， 实 现 信息 在 不 同 模 态 间 的 流通 ， 且 模 态 传译 的 研究 主要 


集中 在 图 片 和 
间 。 模 态 传译 是 研究 者 长 


语句 、 语 句 和 声音 、 


a A 
语言 和 语言 等 1 


个 模 态 之 


期 


究 的 问题 ， 很 大 部 分 的 多 模 态 


深度 学 习 都 涉及 模 态 传译 ， 要 精确 地 实现 模 态 传译 ， 模 型 必 


须 能 很 好 的 理解 源 模 态 和 目标 模 态 的 结构 和 信 
机 视觉 、 自 然 语 言 处 理 和 多 模 态 数据 集 的 发 展 ， 人 们 对 自然 


使 得 模型 底层 网 络 获 


ZN 
得 的 单 模 态 的 表示 就 融合 了 各 模 态 的 时 间 信 息 。 
Chen 4 AU 
并 依次 级 联 各 LSTM 
LSTM 的 隐 状 态 则 为 


识别 中 ， 


在 视听 情感 
在 每 个 底层 网 络 的 输出 层 添加 LSTM, 
的 输出 输入 到 上 层 LSTM 中 ， 最 上 层 
作用 语义 表示 。 


语言 、 图 


测 性 分 类 ， 


在 共 作 | 


语义 表示 模型 的 训练 过 程 中 ， 产 生 单 模 态 表示 


的 各 种 神经 网 络 都 可 以 进行 预 j 
构 ， 整 个 网 络 的 训练 常 采用 端 到 
型 的 预测 结果 能 够 反映 产生 的 
包含 各 模 态 输入 的 信息 。 
各 输入 包含 的 语义 信息 其 


能 充分 利 


练 ， 或 者 微调 经 典 的 网 络 结 
端的 训练 方式 ， 这 也 使 得 模 
作用 语义 表示 是 否 能 够 充分 
语义 表示 训练 过 程 简单 ， 且 
至 时 间 信 息 ， 但 是 也 存 


LYE J 


在 训练 参数 过 多 等 缺陷 。 
1.2.2 模 态 约束 语义 表示 


模 态 约束 语义 表示 不 同 于 


{作用 语义 表示 ， 它 不 是 融合 


各 输入 的 信息 


模 态 的 表示 映射 到 目标 模 态 的 语义 空间 中 ， 


表示 空间 中 ， 


用 于 完成 预测 等 机 器 学 习 任 务 ， 而 是 将 输入 


像 、 视 频 、 


在 本 节 的 论述 中 综合 考虑 模 态 传译 ， 按 传译 结果 
专 译 和 开放 性 传译 ， 且 分 别 


展开 论述 。 有 界 传译 指 将 源 模 态 中 的 一 个 元 素 传译 为 目 


声音 等 模 态 理解 程度 的 加 深 ， 模 态 传译 


Ee MENE 


又 获得 了 更 多 的 关注 ， 且 在 各 研究 任务 上 取得 了 进 
展 。 


将 模 态 传译 分 为 有 界 


步 的 发 


的 可 预 


标 模 态 集合 中 的 某 个 元 素 或 多 个 元 素 。 有 界 传译 中 的 主要 问 
题 包括 信息 检索 、 图 像 识 别 和 语音 合成 ， 如 跨 媒体 检索 、 人 


脸 识别 和 机 器 阅读 等 ， 


仅 需 要 在 


标 模 态 中 找到 源 模 态 元 素 


的 对 应 元 素 ， 如 图 像 识别 在 模 态 传译 的 概念 下 可 以 理解 为 : 


将 一 个 包含 鸟 的 图 像 传译 为 文字 


果 为 目标 模 态 集合 中 的 
Jilo EF REE EN 


“ 鸟 '。 开放 性 传译 指 传 译 结 
了 前 后 顺序 关系 的 多 个 元 素 组 成 的 序 


究 方 面 ， 


标 模 态 常 为 句子 ， 如 机 器 翻 


译 、 图 像 标 注 语句 生成 和 声音 识别 等 。 在 模 态 传译 中 ， 传 译 
结果 评价 机 制 的 主观 性 、 源 模 态 信号 中 存在 的 信号 重复 以 及 


使 得 在 目标 模 态 
该 映射 结果 与 语义 相同 的 目标 模 态 的 相似 性 大 


于 语义 不 同 的 目标 模 态 ， 这 个 映射 结果 即 为 模 态 约束 语义 表 


Wo (EHX 


经 网 络 获得 模 态 约束 语义 表示 的 最 主要 的 方法 是 


将 衡量 输入 模 态 表示 和 


标 模 态 表示 相似 性 约束 条 件 加 入 


标 函 数 中 ， 用 端 到 端的 训练 方式 完成 模型 训练 ， 学 习 获得 产 
生 输 入 模 态 和 目标 模 态 表示 的 神经 网 络 的 参数 ， 以 及 输入 模 


态 表示 映射 至 


模 态 约束 语义 表示 思路 简单 ， 


| 目标 模 态 表示 空间 中 的 映射 矩阵 丈 。 
应 用 范围 广泛 ， 在 不 同 的 


FJER T 


定 适 合 的 网 络 ， 在 损失 函数 中 添加 


4 需要 确定 输入 模 态 和 目标 模 态 的 输入 形式 ， 确 
标 模 态 对 输入 模 态 的 约 


束 项 ， 就 可 


以 获得 包含 目标 模 态 语义 信 


息 的 输入 模 态 约束 语 


义 表示 。 在 图 像 识别 问题 中 ，Frome 等 人 [2 将 图 


RAE AN E) 


HARRER, A BRET SN BT ea BH, A ep AAS 
约束 语义 表示 的 相似 性 进行 约束 ， 如 包含 车 的 图 像 的 约束 语 


义 表示 和 名 词 “车 ' 的 损失 值 小 于 该 图 像 与 “ 马 ” 的 损失 值 。 
图 像 标注 问题 


中 ，Kiros 等 人 (3 使 用 了 相同 的 思想 ， 不 同 


是 Kiros 用 


LSTM 学 习 语句 的 表示 ， 把 图 像 的 投影 空间 从 


Ki & Rt 


词 空 间 拓展 到 
闻 中 的 投影 和 标注 语句 的 表示 相似 性 最 大 。 在 跨 媒体 检索 
中 ， 为 提高 检索 效率 ，Xu SAME UER, 
语 /) 文本 语义 空 


语句 空间 ， 在 完成 训练 后 使 得 图 像 在 语义 


动词 ， 宾 
间 而 非 语句 空间 ， 很 好 地 实现 了 视频 检索 。 


模 态 约束 语义 表示 弱化 了 产生 多 模 态 表示 过 程 中 信息 融 
合 的 必要 性 ， 采 用 模 态 约束 的 方式 实现 模 态 间 的 信息 交流 。 
模 态 约束 语义 常 作 为 编码 器 出 现在 模型 中 , 其 输出 /输入 解码 
器 产生 学 习 任 务 的 预测 结果 ， 在 编码 器 完成 训练 后 ， 编 码 器 


的 发 展 中 的 


模 态 元 素 之 间 的 多 对 一 和 一 对 多 关系 等 问题 依然 为 模 态 传译 
图 5 为 有 界 传 译 和 模 态 传译 的 示意 


kik PE Te 


2.1 


有 界 传译 指 将 源 模 态 中 的 


图 。 图 中 每 个 方块 代表 一 个 元 素 。 


(a) 有 界 传译 


(a) Bounded transform 


模 态 1 —> wi W2 w3 
模 态 2 
(b) 开放 性 传译 


(b) Open transform 
图 5 模 态 传译 方式 
Fig.5 Modal transform 


BARE 


个 元 素 传译 为 


目标 模 态 集合 


中 的 某 个 元 素 或 多 个 元 素 ， 
媒体 检索 和 语音 生成 为 


目标 元 素 没 有 前 后 


序列 关系 。 跨 
9 界 传译 中 的 典型 问题 。 
在 多 模 态 学 习 中 ， 跨 媒体 检索 指 在 多 模 态 数据 库 中 ， 根 


据 给 定 模 态 类 型 的 查询 命令 ， 检 索 数 据 库 ， 得 到 另 一 个 模 态 
数据 中 包含 查询 命令 信息 的 元 素 。 多 模 态 深度 学 习 实现 跨 媒 


体检 索 的 3 


E 要 方式 为 分 别 学 习 查 询 模 态 元 素 和 


目标 模 态 元 素 


刘 建 伟 ， 等 : 多 模 态 深度 学 习 综 述 


神经 网 络 或 者 相似 性 评价 函数 学 习 两 个 模 态 
y 性 结果 完成 检索 ， 如 Feng 等 人 [4 
的 通信 自 编码 器 。 为 提升 跨 媒 体检 索 的 表现 ， 研 究 者 在 


网 络 结构 获得 更 好 的 模 态 表示 和 更 新 相似 性 评价 机 制 两 


究 。 在 获得 更 好 的 模 态 表示 方面 
人 [5 提出 一 个 可 以 同时 学 习 媒 体内 和 媒体 


Peng 等 


由 多 个 


网 络 堆 营 形成 的 
(cross-media multiple deep network, 


模 态 内 和 模 态 间 信 息 


层次 结构 的 跨 媒 体 混 合 神 
CMDN), 每 个 模 态 的 表 
前 向 神经 网 络 对 其 相 


经 网络 


he 上 | 


出 单词 为 字典 中 单词 的 条 件 后 验 概率 最 大 


的 那个 单词 。 在 一 段 时 间 内 产生 输入 语句 的 机 器 翻译 结果 。 


ChinaXivA ERAT 


各 领域 的 发 展 ,而 
CLEVR!*!, HoME 


FE 估 ,实现 模 态 检索 。 在 更 新 相似 性 评价 机 制 方面 ， 


=g 


已 完成 训练 的 ImageNet 的 


的 图 


深度 语义 匹配 的 方法 将 文本 的 的 语义 信息 与 区 
对 比较 ， 完 成 检索 。 


生成 指 构建 模型 学 习 和 


将 其 信息 


经 声 码 器 转换 为 声音 输出 ， 主 要 包含 文字 生成 语音 和 


图 像 生 


成 声音 。 在 文字 生成 语音 的 研究 
栈 的 双向 LSTM 处 理 
平滑 的 变化 轨迹 ， 经 声 码 器 变换 为 声音 


各 文本 的 特 
EB AY 
o Muthukumar 


识别 结果 ，LeNet 


生成 1~2 干 个 候选 区 域 ， 将 每 个 
正 提取 ， 提 取 的 特征 送 入 每 一 类 的 SVM 分 


DE 


= 
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图 像 标 注 、 图 像 问 答 和 视觉 对 话 问题 为 近期 
页 域 , 它们 都 是 将 图 像 模 态 转换 为 语句 模 态 ， 
模 态 表示 图 像 中 所 包含 的 信息 


让 各 领域 的 研究 中 ， 
是 出 各 种 不 同 的 神经 网 络 结构 以 推 


PERRE, WEM 


究 者 也 同步 创建 了 新 


的 多 模 态 数据 集 ， 如 
1. MSCOCO 等 。 在 图 像 识 别 发 展 过 程 
E 了 多 种 卷 积 神经 网 络 用 于 学 习 输 
也 神经 网 络 的 输入 ， 经 过 学 习 ， 输 出 相应 的 


入 图 像 的 模 态 表示 ， 


、CapsNet 将 数字 手写 体 


、GoogLeNet 高 精度 


区 


像 传 译 为 图 片 中 


识别 出 ImageNet 图 


的 物体 信息 。RCNN 4 


E 对 输入 图 像 进 行 处 


Pe dae 


区 域 输入 卷 积 神经 


等 人 [将 递归 神经 网 络 当 作 一 个 训练 好 的 传统 的 文本 语 让 


] 受 限 玻 尔 兹 曼 机 和 深度 置 


日 
成 模型 的 性 


数 在 每 个 隐 马 尔 可 夫 状 态 上 的 分 布 ， 在 
EF， 遵循 最 大 输出 概 
输入 语句 的 RBM-HMM 或 DBN- 


模型 ， 预 测 谱 包 络 。 


二 


HMM 
等 人 [79] 


4 神经 网 


出 作为 长 短 记忆 神经 网 络 的 输 


经 网 


作用 ， 
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2.2 开放 性 传译 


a 
a 


关系 的 多 个 元 素 组 成 的 序列 。 
究 的 主要 问题 ， 如 书 
识别 以 及 手写 体 识别 等 等 。 


chinaXiv 


Lat EP aT CA AE e A 


神经 网 络 合成 无 


P 的 有 前 后 顺序 
示 模 态 为 语句 模 态 是 开放 性 


网 络 构造 编码 器 -解码 器 , 用 


HO ZN 


供 问题 语句 中 的 先 验 信 


ZN 


属于 该 类 ， 实 现 了 图 片 多 目标 检测 和 识别 。 
示 注 和 图 像 问答 在 图 像 识别 技术 基础 上 迅速 发 展 。 
用 了 编码 器 -解码 器 结构 ， 用 GoogLeNet 作 
图 像 的 固定 长 度 向 量 表示 ,使 用 LSTM 作为 
解码 为 语句 ， 整 个 编码 器 一 解码 器 将 图 片 转 
容 的 语句 。 图 像 问答 系统 能 够 根据 图 像 回答 
于 像 相 关 的 问题 ， 图 像 问答 旨 在 评估 图 片 标注 训练 结果 的 
人 [5 使 用 卷 积 神经 网 络 学 习 图 像 特征 ， 使 用 
TM 学 习 提 问 语句 信息 ， 将 两 个 学 习 结果 输入 一 个 前 向 神 
4 络 ， 取 经 软 最 大 处 理 后 的 几 个 最 优 
hh， 由 于 语句 天 然 会 包含 其 叙述 对 象 的 相关 
提问 语句 作为 输入 会 给 模型 提 
进而 会 导致 模型 不 能 真实 地 理解 图 


的 输出 作为 回答 。 


片 中 包含 的 信息 。 为 


W, Johnson 等 人 [5 创建] 


| rf 


CLEVR; Hu 等 人 [89 提 HH 
module networks, 


果 ， 表 现 出 它 在 


于 诊断 图 像 问答 模 


的 基础 上 给 出 提问 语句 
了 端 到 端的 模 
N2NMNs)， 它 能 够 直 ] 


HW |B K 
网 络 (end-to-end 
接 从 文本 输入 预测 


oe 


HSH 


化 网 络 体系 结构 ， 并 将 其 应 用 


图 像 中 ， 以 解决 问 


Santoro 等 人 [7] 提 
它 能 够 有 效 地 实现 关系 
关系 ， 作 出 回答 。 

} 话 是 近期 新 兴 的 多 模 态 任务 ， 
发 展 而 来 ， 其 任务 为 实现 人 与 机 器 使 用 自然 语言 


平行 短语 对 输入 到 
分 ， 将 学 习 到 的 打分 结果 引入 标准 的 如 
译 中 ,改善 统计 机 器 翻译 的 性 
将 输入 语句 映射 到 


M 将 输入 语句 的 隐 表 示 学 习 成 为 输 
译 的 编码 器 一 解码 器 中 引入 了 注 
注意 力 模型 ， 编 码 
量 序列 ， 解 码 器 对 当前 要 输出 的 


制 ， 构 造 了 全 局 注意 力 模 型 和 
器 产生 一 个 输入 语句 


求 内 积 的 数值 ， 送 入 软 最 大 函数 ， 得 到 编码 器 输出 
Pp 每 个 隐 向 量 的 权 值 ， 编 码 器 输 


的 隐 向 量 序 
笃 码 器 当前 隐 向 


Sa 


Lun 


KIA. 

言 中 的 句子 ， 将 其 翻译 为 男 一 语 
可 变性 ， 以 

神经 网 络 成 为 

递归 神经 

日 应 的 法 语 短语 作为 

网 络 进行 训练 ， 得 到 短语 对 的 打 
于 短语 的 统计 机 器 翻 


EAE. Sutskever 等 人 07 使 用 LSTM 
， 获 得 输入 语句 的 隐 表 示 ， 然 


将 视觉 模 态 


答 任务 ， 并 且 这 个 模型 在 CLEVR 数据 集 上 取得 了 很 好 的 效 
图 像 问答 中 充分 考虑 
出 了 关系 网 络 (relation 
E 理 ， 即 充分 利 


像 信 息 的 能 
networks, RN), 
提问 语句 和 图 像 的 


已 由 图 像 标 注 和 图 


量 分 别 


a AS fe BUG) ASH. Abhishek 
个 模型 结构 为 编码 器 一 解码 器 神经 网 络 
的 视觉 对 话 系统 ， 编 码 器 部 分 使 用 后 融合 编码 器 、 分 层 递归 
络 编码 器 对 图 像 信 息 和 提问 者 的 询问 信息 进 


语句 。 


用 生成 式 解 码 器 和 
hek $ AI. 
BA, TA REREH 


图 像 信 息 和 历史 问答 信息 上 


的 公用 语义 表示 ， 解 


EF 3D 图 像 ， 结 合 问题 产生 


| 将 语音 模 态 转换 为 语句 模 态 。 
过 程 包括 建立 声学 模型 、 语 言 模 型 和 解码 过 程 。 解 码 指 根据 


以 及 前 一 个 时 刻 的 解码 器 输出 隐 向 量 ， 向 量 ， 
标语 言 
前 单词 输出 概率 最 大 的 网 络 连接 边 权 Hi EL 向 量 ; 


WE UK 


词 的 条 件 


声学 模型 和 语言 模型 ， 将 输入 的 语音 特 生 


判别 式 解 码 器 产生 回答 语句 。 
通过 构建 一 个 混合 结构 的 神经 网 络 催 
hf 3D 图 像 包含 的 


回答 语句 。 
声音 识别 的 传统 


E 向 量 序 列 转换 为 字 


序列 ， 实 现 模 态 传译 。 在 当前 的 研究 中 ， 基 于 HMM 模型 
的 语音 识别 系统 一 般 基 本 
finite state transducer) 进行 解码 ， 将 语音 识别 的 解码 问题 归 
结 为 加 权 有 限 状态 转换 器 的 最 优 路 径 搜索 问题 。 在 搜索 最 优 


FOAL ARIK AS He HRS (weighted 
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路 径 时 ， 常 用 启发 式 的 柱 搜索 技术 g9。 此 外 ， 一 些 研 究 者 也 理 后 产生 的 集合 特征 通常 具有 较 高 的 维度 ， 可 以 使 用 主 成 分 
提出 通过 最 优化 解码 图 中 的 路 径 成 本 总 和 来 最 小 化 最 终 解 码 ” 分 析 (PCA) 和 线性 判别 分 析 (LDA) 对 集合 特征 进行 降 维 处 理 
误差 。Mohri 等 人 5 对 CTC 目标 函数 进行 改进 , 在 完成 神经 [99。 前 融合 产生 的 特征 集成 和 模 态 共 作用 语义 表示 ， 两 者 的 
网 络 的 训练 后 ， 输 入 要 识别 的 信号 ， 根 据 神 经 网 络 的 输出 结 ”区 别 模糊 不 清 ， 并 且 模 态 共 作用 语义 表示 也 可 以 作为 前 融合 
果 ， 解 码 产生 与 输入 信号 对 应 的 单词 序列 。 在 构造 编码 器 一 ”特征 集成 结果 。 与 其 他 两 种 融合 方式 相 比 ， 前 融合 因 其 简单 
解码 器 模型 的 声音 识别 中 ， 编 码 器 一 解码 器 模型 共同 学 习 一 ”的 结构 和 训练 过 程 ， 常 出 现在 各 多 模 态 学 习 任务 中 ， 并 且 使 
个 语音 识别 的 所 有 过 程 ， 实 现 模 态 传译 。 用 前 融合 表示 产生 的 预测 结果 常 作 为 该 预测 任务 的 基准 。 
在 本 节 将 模 态 传译 分 为 有 界 传译 和 开放 性 传译 ， 并 对 两 前 融合 中 模 态 表示 的 融合 有 多 种 方式 ， 常 用 的 方式 有 对 
种 模 态 传译 方式 分 别 展开 讨论 。 完 成 模 态 传译 的 过 程 常 和 解 ”各 模 态 表示 进行 相同 位 置 元 素 的 相 乘 或 相 加 、 构 建 编码 器 一 


决 学 习 任务 的 过 程 同步 进行 


JA 


E 务 之 间 的 关系 ， 


本 文 列 举 各 典型 的 学 习 任务 ， 


， 这 也 反映 出 模 态 传译 和 机 器 学 


即 模 态 传译 为 涉及 模 态 
器 学 习 任务 的 抽象 概括 。 在 有 界 传 译 和 玫 


间 信 息 交 


F 放 性 传译 的 讨论 中 ， 


流 的 机 


分 析 该 学 习 任务 中 常用 的 神 


解码 器 结构 和 用 LSTM X 


为 脑 电 图 和 眼睛 


mr 
a 


号 的 情绪 识别 


峰 自 编码 神经 网 络 
和 重 构 ， 然 后 将 集 
别 结果 。 在 图 像 问 
和 LSTM 神经 网 络 
素 相 乘 。 在 视频 描 


2% KÆ LSTM 神经 网 络 , 实现 了 对 视频 中 的 时 间 和 空间 


经 网 络 的 结构 ， 以 帮助 理解 神经 网 络 在 模 态 传译 中 的 功能 ， 
展示 深度 学 习 在 模 态 传译 方面 的 发 展 。 
3 RARA 

多 模 态 融合 指 综合 来 自 两 个 或 多 个 模 态 的 信息 以 进行 预 
测 的 过 程 。 在 预测 的 过 程 中 ， 单 个 模 态 通常 不 能 包含 产生 精 
确 的 预测 结果 所 需 的 全 部 有 效 信息 ， 多 模 态 融合 过 程 融 合 了 
来 自 两 个 或 多 个 模 态 的 信息 ， 实 现 信息 补充 ， 拓 宽 输 入 数据 


所 包含 信息 的 履 盖 范围 
HEREDI, Zi 
后 关系 分 为 前 融合 、 
模 之 前 ， 通 过 集成 或 组 
看 的 融合 5 ， 后 融合 指 分 别 


息 的 融合 。 
3.2 后 融合 


对 提取 的 脑 电 


ES, Liu 等 人 [2 


?和 


成 特征 输入 文 
答 任务 中 ， 
学 习 到 的 图 


像 


持 向 量 机 ， 产 生 情 绪 分 


Antol 等 人 [9] 对 卷 积 神经 


和 问题 的 向 量 表示 中 对 


图 和 了 眼睛 信号 进行 特征 集 


申 经 网 络 进行 信息 整合 。 在 输入 模 态 


DE 


应 元 


述 任务 中 ，Donahue 等 人 B4 在 卷 积 神经 网 


后 融合 过 程 先 提取 各 模 态 的 特征 ， 将 提取 的 各 模 态 


， 提 升 


态 融 合 按 多 模 态 出 


合 来 自 


模型 的 输出 或 决策 以 


A 


A 


预测 结果 的 精度 ， 提 高 预测 模 
h 合 与 各 模 态 建 模 的 先 
后 融合 和 混合 融合 。 前 融合 指 在 模 态 建 


所 有 模 态 的 特征 来 完成 3 
执行 每 种 模 态 的 建 模 ， 然 后 综合 


二 


E 


特征 


产生 最 终 决 策 结 果 ， 完 成 决策 
APA, 混合 融合 指 在 特征 级 别 和 决策 级 别 进行 融合 ， 
融合 和 后 融合 的 方法 PI。 民 


多 


EL AS FIR 


组 合 前 


各 模型 的 预测 结果 
后 融合 可 较 简单 地 
的 增加 进行 扩展 ， 
行 建 模 , 当 
后 融合 也 存在 一 些 
后 融合 实现 难度 更 


6 为 各 融合 方式 的 结构 示意 图 。 


输入 对 应 的 模型 中 ， 每 个 模型 输出 一 个 预测 结果 ; 


， 形 成 最 终 的 
处 
每 个 模 态 的 预 


缺点 ， 如 未 考 


“Br AY 
高 等 。 


然后 
与 前 融合 相 


预测 结果 。 


里 数据 的 异步 性 ， 系 统 可 以 随 模 态 个 数 


测 模型 能 更 好 地 对 该 模 


模型 输入 缺少 某 些 模 态 时 也 可 以 进行 预测 o 


虑 特征 层面 的 模 态 相关 


在 后 融合 过 程 中 ， 整 合 各 模型 的 预测 结果 的 常用 方 
票 851、 基 于 信道 噪声 和 信和 号 方差 的 加 权 059 


平均 081、 


E 
= 
Ill 


特征 
整合 
Lk, 


态 进 
时 ， 


性 、 


式 为 
和 模 


在 多 模 态 深度 学 习 中 ， 神 经 网 络 的 结构 可 以 直观 地 反映 该 网 型 选择 〈 如 Adaboost000 和 神经 网 络 )。 在 视频 识别 或 视频 描 
络 实现 模 态 融合 的 方式 。 最 早 使 用 神经 网 络 实现 模 态 融合 的 述 任务 中 ， 由 于 视频 模 态 经 过 双 通 道 卷 积 神经 网 络 后 ， 产 生 
多 模 态 任务 为 视听 语音 识别 ， 现 在 它 的 范围 已 经 拓展 到 了 图 视频 的 时 间 信 息 表示 和 空间 信息 表示 ， 所 以 在 产生 识别 结果 
像 问答 、 视 觉 对 话 、 手 势 识 别 、 情 感 分 析 以 及 视频 识别 和 描 和 描述 语句 前 ， 神 经 网 络 需 融合 视频 的 时 间 和 空间 信息 。 在 
述 。 视频 识别 任务 中 , Simonyan 等 人 BI 分 别 将 视频 的 时 间 信 息 表 
模 态 1 模 态 1 | 示 和 空间 信息 表示 输入 全 连接 层 ， 且 全 连接 层 的 最 后 一 层 为 
m E ee 模 态 2 aa — softmax 函数 ， 之 后 采用 平均 和 支持 向 量 机 两 种 方法 对 
模 态 3 模 态 3 = softmax 结果 进行 融合 , 获得 视频 预测 结果 ; 在 视频 描述 任务 
中 , Pan 等 人 (9 使 用 LSTM 神经 网 络 融 合 由 卷 积 神经 网 络 获 

(a) 前 融合 (b) 后 融合 取 的 与 视频 相关 的 单词 信息 ， 生 成 视频 描述 语句 。 

(a)Early fusion (b)Late fusion 3.3 混合 融合 

ne 分 类 器 1 一 一 “混合 融合 是 组 合 了 前 融合 和 后 融合 的 方法 ， 其 在 综合 了 
HES? ysm 前 融合 和 后 融合 的 优点 的 同时 ， 也 增加 了 预测 模型 的 结构 复 
| — 于 神经 网 络 结构 的 多 样 性 和 灵活 性 ， 在 实现 混合 融合 
ai D | 的 研究 中 ， 神 经 网 络 得 到 了 广泛 的 应 用 。Wu 等 人 5 构建 了 
faa.” 视频 和 声音 信号 经 过 仅 基于 视频 信号 和 仅 基 于 声音 信号 的 听 
声 辩 人 模型 ， 产 生 模 型 预测 ， 同 时 视频 信号 和 声音 信号 的 集 
(c) 混 合 融合 成 特征 输入 视听 相关 模型 (audio-visual correlative model， 
(c)Hybrid fusion AVCM)， 产 生 模 型 预测 ， 采 用 加 权 方 式 整合 模型 预测 ， 获 得 
图 6 模 态 融合 方式 识别 结果 。 在 图 像 问答 任务 中 ，Xut 中 和 Lub09 用 递归 神经 
Fig.6 Modal fusion 网 络 和 卷 积 神经 网 络 分 别 学 习 问 题 语句 和 图 像 的 信息 ， 用 注 
3.1 前 融合 意 力 机 制 实现 问题 语句 信息 和 图 像 信息 的 融合 。 在 手势 识别 
前 融合 实现 过 程 中 ， 首 先 提取 各 输入 模 态 的 特征 ;然后 任务 中 ，Neverova 等 人 0 分 别 用 卷 积 神经 网 络 对 手势 视频 
将 提取 的 特征 合并 到 被 称 为 特征 集成 的 特征 集合 中 ， 集 成 的 中 的 左手 、 右 手包 含 的 时 间 信 息 和 空间 信息 进行 学 习 和 融合 ， 
特征 作为 输入 数据 输入 到 一 个 模型 中 ， 输 出 预测 结果 。 前 融 并 行 地 使 用 卷 积 神经 网 络 提取 身体 姿势 的 图 像 信 息 和 声音 信 
合 具 有 较 低 的 计算 复杂 性 ， 但 是 各 模 态 特征 经 转换 和 缩放 处 息 ; 然后 使 用 全 连接 神经 网 络 进行 各 信息 融合 ， 在 输出 层 输 
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出 辨识 结果 。 
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在 本 节 中 按 多 模 态 融合 与 各 模 态 建 模 的 先后 关系 将 模 态 


融合 分 为 前 融合 、 后 融合 和 混合 融合 ， 分 别 讨论 各 种 融合 方 
式 的 优 缺 点 ,并 用 现 有 模型 解释 各 融合 方式 模型 的 构建 方式 。 
同时 ， 研 究 者 经 过 在 不 同 的 研究 任务 下 对 比 各 融合 方式 后 ， 


发 现 各 融合 方式 并 无 确定 的 优 劣 关系 ,在 不 同 的 实验 条 件 下 ， 


研究 者 可 以 尝试 不 
4 RAST 


同 的 融合 方式 以 获得 更 好 的 模 态 融合 结果 。 


多 模 态 对 齐 指 辨 别 来 自 两 个 或 两 个 以 上 的 不 同 模 态 的 元 
素 之 间 的 关系 。 例 如 ， 在 机 器 翻译 中 ， 和 寻找 存在 于 ‘I am a 
Chinese” 和 “我 是 中 国人 ”这 两 个 不 同 语言 模 态 的 句子 中 的 


“ 工 我 ‘am-#’, 
标注 中 ， 给 出 一 个 


‘a Chinese- 中 国人 ”的 对 齐 关 系 ; 在 图 像 
图 像 和 对 应 的 标注 语句 ， 辨 别 标注 语句 中 


与 图 像 各 区 域 对 应 的 单词 或 短语 。 在 多 模 态 深度 学 习 中 ， 本 


文 根 据 对 齐 算法 实 


齐 和 语义 对 齐 。 注 意 力 对 齐 综 合 考虑 输入 模 态 中 各 元 素 与 


岗 对 齐 的 方式 ， 将 模 态 对 齐 分 为 注意 力 对 


为 软 注意 力 模型 。 


se LG 


YE 
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单词 都 以 对 应 的 概率 对 i 时 刻 的 输出 单词 进行 对 齐 ， 将 这 个 模型 称 


Ya y t 


图 7 软 注意 力 模型 


Fig.7 Soft attention model 


意 力 模型 在 发 展 过 程 中 ， 其 模型 不 断 更 新 ， 以 软 注意 


力 模型 


标 模 态 中 茶 个 元 素 


的 关系 ， 实 现 模 态 对 齐 ; 语义 对 齐 根据 和 输 


入 模 态 各 元 素 与 


模型 能 够 自然 地 实 
取得 了 较 好 的 成 果 


标 模 态 中 各 元 素 语 义 相 似 性 ， 构 建 语义 对 
齐 数 据 集 ， 在 语义 对 齐 数 据 集 上 训练 模型 ， 最 终 使 得 学 习 得 


岗 语 义 对 齐 。 这 两 种 方式 都 在 模 态 对 齐 中 
， 其 中 注意 力 对 齐 模 态 元 素 更 能 较 好 地 考 


虑 模 态 元 素 之 间 的 长 期 依赖 关系 。 


4.1 注意 力 对 章 
在 一 个 包含 注 


意 力 对 齐 的 深度 学 习 模型 中 ， 注 意 力 对 齐 


部 注意 


与 


alll 


为 基础 发 展 出 了 硬 注意 力 模型 、 全 局 注意 力 模 型 与 
力 模 型 ， 以 及 静态 注意 力 模型 和 动态 注意 力 模 型 。 


软 注意 力 模 型 相对 应 的 是 硬 注意 力 模型 0%"1, 其 常用 于 


FX 
， 每 
子 单 


可 地 PR] 


se 


使 
入 句子 


也 置 0。 
用 软 注意 力 模型 和 硬 注意 力 模 型 的 对 齐 思 想 ， 考 虑 输 
中 注意 力 分 配 概率 所 履 盖 单词 范围 大 小 ， 并 且 对 软 注 


字 标 注 中 ， 首 先 使 用 编码 器 将 输入 图 像 转换 为 多 个 向 
个 向 量 对 应 于 图 像 的 一 个 区 域 ， 选 取 某 个 向 量 与 目标 


词 对 齐 ， 其 他 的 向 量 与 目标 句子 单词 对 齐 的 概率 硬性 


意 力 模 


型 进行 简化 和 推广 后 ， 


Luong 等 人 [0 提出 全 局 注意 力 


的 主要 功能 为 学 习 输出 中 某 个 元 素 与 输入 中 各 元 素 的 对 齐 概 


率 。 注 意 力 对 齐 应 用 范围 广泛 ， 如 机 器 翻译 40%、 图 像 标注 


I106、 语 音 识别 (% 的 等 涉及 模 态 传译 的 多 模 态 学 习 任 务 , 并 在 


各 个 领域 取得 了 良好 的 表现 ， 且 在 深度 学 习 模 型 中 加 入 注意 


力 机 制 常 能 提升 该 模型 的 性 能 。 
注意 力 对 齐 作 用 过 程 复杂 ， 本 文 以 机 器 翻译 中 的 软 注 意 
力 模 型 为 例 介 绍 注意 力 模 型 的 构造 过 程 。Bahdanau 等 人 08 


模型 与 


局 部 注意 力 模 型 ， 并 | 


于 机 器 翻译 。 全 局 注意 力 模型 


使 用 源 
在 


与 局 部 注意 力 模型 的 分 类 依据 为 在 生成 上 下 文 向 量 时 ， 是 否 
语句 中 所 有 的 单词 的 隐 表 示 。 
使 用 软 注意 力 的 机 器 翻译 模型 中 ， 对 目标 句子 中 的 每 


一 个 单词 ， 都 需要 计算 与 这 个 单词 相对 应 的 源 输入 句子 中 每 


采用 解码 器 一 编码 器 结构 实现 注意 力 对 齐 和 机 器 翻译 ， 其 模 


型 结构 示意 图 如 图 


7 所 示 。 在 编码 器 阶段 ,使 用 BRNN 输入 


语句 中 的 单词 进行 语义 特征 提取 ， 令 工 为 输入 文本 长 度 ， 


h={h},j €l. T, 为 各 输入 时 刻 


解码 器 端 ， 训 练 时 
时 刻 i 使 输出 单词 


其 中 : Va» W, AU, 


的 条 件 后 验 概率 最 大 的 模型 参数 ， 测 试 
时 ,使 用 RNN 和 多 层 神经 网 络 ， 把 当前 时 刻 i 输 出 的 所 有 单 
词 中 ,条 件 后 验 概率 最 大 的 单词 作为 当前 时 刻 的 翻译 结果 。 
S :表示 解 码 器 输出 单词 y Æ RNN 中 的 隐 变 量 , 引入 注意 力 
机 制 ， 建 立 注意 力 对 齐 模型 ， 该 对 齐 模型 由 两 层 神 经 元 构成 
的 神经 网 络 构建 ， 输 出 表示 为 

ej =a(5,4,h;) =v] tanh(W,s,, +U,h;) (6) 


/的 BRNN 隐 变 量 的 集合 。 在 


， 使 用 RNN 和 多 层 神 经 网 络 求解 在 每 个 


为 权 值 矩阵 。 注 意 力 对 齐 模型 在 生成 一 个 预测 


单词 时 ， 能 够 计算 输入 语句 中 每 个 单词 的 表示 与 输出 语句 中 该 单词 


对 应 的 预测 目 


X 


未 单词 的 相关 性 强 弱 的 能 量 值 ,并 将 @ 作为 软 最 


exp(e;) 


变量 5 的 上 下 文 向 量 


函数 输入 ， 计 算得 到 权 值 OS 


使 用 对 齐 模型 产生 汞 


= 
pai 


T, 
LeXp(ex) ” 


值 和 编码 器 产生 的 隐 变 量 集合 ， 计 算 解 码 器 各 输出 时 刻 的 单词 的 隐 


4 = mh ,并 将 i 时 刻 上 下 文 向 量 c, 和 解码 器 


RNN 中 的 隐 变 量 5; 以 及 i-1 时 刻 的 输出 单词 y 输入 解码 器 RNN, 
产生 iii 时刻 输出 单词 y 的 条 件 后 验 概 率 
PONY Yah) = 8 OSG) 。 在 这 个 模型 中 ， 输 入 语句 中 的 每 个 


个 单词 的 对 齐 概率 ， 因 此 也 称 软 注意 力 模 型 为 动态 注意 力 模 


个 


型 。Hermann 等 人 008 相对 应 
整 


也 提出 了 静态 注意 力 模 型 ， 对 于 


标 句子 ， 整 体 对 源 输入 句子 求 出 一 个 注意 力 概率 分 布 


EFX 
词 向 量 


入 词 向 量 进行 线性 运算 ， 得 到 经 注意 力 产 生 的 语句 矩阵 。 


向 量 ， 然 后 用 于 问答 系统 ; 梁 斌 等 人 tI 用 学 习 获得 的 
注意 力矩 了 泗 、 词 性 注意 力 和 矩阵 和 位 置 注 意 力矩 阵 与 输 


4.2 语义 对 齐 
语义 对 齐 是 一 种 直接 赋 给 模型 对 齐 能 力 的 对 齐 方式 ， 语 
最 主要 的 实现 方式 就 是 处 理 带 有 标签 的 数据 集 并 产生 


义 对 齐 
语义 对 
的 语义 

在 
视觉 和 


有 监督 语义 对 齐 算 法 了 


齐 数据 集 ， 
对 齐 信息 61。 


~ 


视觉 模 态 和 语句 模 态 对 齐 方面 ， 由 于 带 有 对 齐 标签 的 
语句 模 态 数据 集 大 小 的 爆发 式 增加 ， 基 于 深度 学 习 的 
取得 了 很 大 的 进步 。 在 图 像 标 注 中 


深度 学 习 模型 去 学 习 语 义 对 齐 数 据 集 


Karpathy 等 人 00 提 出 了 如 图 


语义 信 


小 化 能 


并 构建 


对 图 像 


进行 区 域 划分 , 选取 最 


20 个 图 像 , 使 用 CNN 对 20 个 图 像 分 别 进行 处 理 , 产生 图 像 


特征 表 


a 
息 的 目标 函数 对 数据 集 进行 训练 ， 然 后 根据 训练 好 的 
神经 网 络 和 新 构建 的 链 式 结构 的 马尔 可 夫 随 机 场 ， 动 态 的 最 
量 函 数 寻找 最 好 的 语义 对 齐 的 图 像 和 语句 或 单词 对 ， 
语义 对 齐 的 数据 集 。 在 这 个 过 程 中 ，Dahl 使 用 RCNN 


8 所 示 的 神经 网 络 模型 ,用 包 人 台 


RAI 19 个 区 域 和 整个 图 像 ， 共 


示 ; 使 用 BRNN 对 描述 语句 中 的 单词 进行 语义 特征 提 


取 ， 其 


维度 与 图 像 表 示 维 度 相 


iis 


句 中 的 


’ Vi 表示 图 像 第 i 个 局 


目 同 ;假设 有 * 个 图 像 ，/ 个 描 
部 区 域 表示 向 量 ，s, 为 描述 语 


第 1 个 单词 向 量 , 乘积 ww 表示 两 者 的 对 齐 分 数 ， 计 算 


每 个 图 


像 区 域 和 每 个 单词 的 对 


} 齐 分 数 ， 取 每 个 单词 关于 各 图 


201905.00048v1 


chinaXiv 


录用 定稿 


SF 


区 域 的 最 大 对 齐 分 数 和 每 个 图 像 区 域 关 于 各 单词 的 最 大 对 
齐 分 数 , 令 图 片 对 语句 的 对 齐 分 数 Su 为 取得 的 每 个 单词 的 最 


刘 建 伟 ， 等 : 多 模 态 深度 学 习 综 述 


ChinaXiv 合 作 其 


业 公 司 对 多 模 态 深度 学 习 进 行 
习 走 进 实际 生活 。 在 本 节 中 对 


大 对 齐 分 数 的 加 和 , 语句 对 图 片 的 匹配 分 数 5 为 取得 的 每 个 
图 像 的 最 大 对 齐 分 数 的 加 和 ， 构 造 目标 函数 


C(O)= pap? max(0, Sy — Sy +1) 


(7) 
+9 max(0, Sy 一 Su +D] 


目标 函数 使 神经 网 络 输出 的 最 优 对 齐 的 图 像 一 语句 对 ， 
比 其 他 对 齐 的 图 像 一 语句 对 有 更 高 的 对 齐 分 数 ， 完 成 CNN 
和 BRNN 神经 网 络 的 训练 ; 然后 ， 沿 着 图 像 标注 句子 ， 构 造 
一 个 链 式 结构 的 马尔 可 夫 随 机 场 ， 最 小 化 能 量 函 数 后 ， 输 出 
对 齐 的 区 域 图 像 和 语句 片段 ， 并 存储 在 数据 集中 。 


图 片 -名 对 对齐 分 数 Sh 


本 一 | 


= LAN — na t t t t 
SY — = m 


等 科技 公司 的 多 模 态 应 用 进 


商品 


谷歌 、 微 软 、 
行 论述 。 


AT! 
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开发 ， 使 得 多 模 态 深度 学 
苹果 、Facebook 


谷歌 公司 是 全 球 最 大 的 搜索 引擎 公司 ， 
其 旗下 的 DeepMind 更 是 人 工 智能 领 
经 网 络 ， 


世界 人 工 智 能 的 发 展 ， 
WaveNet 是 一 种 新 型 的 


域 的 明星 。 


据 文本 产生 比 现 有 技术 更 好 、 


Google 智能 


助理 中 为 美式 英语 、 


TE 


深度 


同时 它 也 


在 引领 


它 能 够 根 


i 


日 语 和 印 


的 语音 ， 其 改进 版 
fe Pa I ia AE pi 


度 


在 


真 的 声音 。 谷歌 翻 译 可 提供 80 种 语言 之 间 的 即时 翻译 , 支持 


两 种 语言 之 间 的 子 词 、 语 句 和 网 页 
更 是 支持 相机 拍摄 翻译 和 11 


够 让 机 器 学 会 “看 图 说 话 ” 仿 
转换 ， 也 可 以 完成 信息 检索 ， 
名 称 ; 扫描 公司 或 商店 的 外 观 ， 调 出 公司 或 商店 的 
Fi o Google Duplex 实现 人 工 智能 与 人 类 使 用 
然 语言 自然 流畅 的 交流 ， 如 它 可 以 自 


输出 实例 


详细 


言 息 和 讨 


利 


手写 语言 
和 文字 、 语 言 和 语言 模 态 信 息 的 交流 互通 


谷歌 翻译 手机 App 


的 翻译 , 实现 了 图 像 


。Google Lens 是 一 
款 基 于 图 像 识 别 和 光学 字符 识别 技术 的 人 工 智 能 应 用 ， 它 能 


岗 图 像 模 态 和 文 


字模 态 信息 的 


例如 


可 以 识别 图 


像 中 的 实例 ， 


己 给 饭馆 、 理 发 店 等 商 


店 打 电 话 帮 助 用 户 预 订 时 间 ， 并 且 可 以 产生 “ 嗯 哼 ”类 情感 
t t t t t 助词 的 回答 ， 使 得 人 工 智 能 更 加 的 “ 像 人 ”。Google Photos 
: T : 利用 人 工 智 能 技术 分 析 相 片 内 容 自 动 的 给 相片 添加 标签 ， 让 
al THAHET 用 户 可 以 使 用 内 置 的 编辑 工具 轻松 修复 照片 ， 也 可 以 利用 人 
a | S | | 工 智 能 自动 创建 拼 贴 动画 、 电 影 、 风 格 化 图 片 等 ,Google Allo 
RE) La ha 是 一 款 人 工 智能 短信 应 用 ， 它 能 够 根据 用 户 历 史 输 入 ， 了 解 
t t t t t 用 户 的 对 话 习 惯 ， 根 据 接受 的 图 像 或 文字 短信 ， 自 动 给 出 巨 
T y P Xa F FEN -Google Assistant 是 一 款 融 合 了 Google Lens, WaveNet, 
Dos ks WO paeh Mbee 谷歌 翻译 等 谷歌 公司 前 沿 机 器 学 习 技术 的 十 分 强大 的 人 工 智 
图 8 语义 对 齐 能 助手 ， 它 有 着 先 沿 的 自然 语言 处 理 能 力 ， 可 以 与 用 户 实现 
Fig.8 Semantic alignment 对 话 、 文 字 交 流 等 信息 交互 ， 并 理解 用 户 指 令 调 用 其 他 软件 
除 此 之 外 ， 还 有 很 多 研究 者 在 视觉 模 态 和 语句 模 态 对 齐 或 人 硬件， 也 可 以 理解 用 户 输入 的 图 像 或 视频 ， 识 别 并 分 析 该 
方面 进行 了 其 他 方式 的 尝试 。 Zhu 等 人 0 通过 训练 一 个 卷 积 视频 内 容 ， 帮 助 用 户 认 知 视频 中 的 各 种 信息 。 
神经 网 络 来 评价 电影 场景 和 剧本 段落 的 相似 性 ;Mao 等 人 0 Facebook 是 一 家 世界 级 的 社交 网 络 服务 公司 ， 引 领 着 机 
使 用 一 个 卷 积 神经 网 络 视觉 模型 和 一 个 LSTM 神经 网 络 语言 器 学 习 在 社交 软件 上 的 应 用 和 发 展 。Facebook 中 机 器 学 习 的 
模型 评估 图 像 中 的 实例 和 其 指称 表达 之 间 的 匹配 度 ; Yu 等 人 作用 主要 是 让 网 络 社交 变 得 更 加 有 趣 、 方 便 ， 提 升 用 户 的 体 
UBIZE Mao 的 工作 基础 上 ， 在 模型 中 添加 图 像 实 例 的 外 形 信 验 度 。 视 频 风 格 泻 染 和 图 像 风 格 泻 染 将 视频 或 图 片 的 风格 艺 
息 和 指称 表达 包含 的 上 下 文 信息 ， 减 少 错误 评估 。 术 化 为 其 他 艺术 风格 ， 例 如 将 一 个 真实 图 片 泻 染 为 焚 高 作品 
在 本 节 中 将 模 态 对 齐 分 为 注意 力 对 齐 和 语义 对 齐 ， 并 总 艺术 风格 的 图 片 ， 使 得 视频 和 图 片 更 加 活泼 多 样 ; 文字 翻译 
结 了 当前 实现 注意 力 对 齐 和 语义 对 齐 的 方法 。 注 意 力 对 齐 动 能 将 朋友 圈 文 字 内 容 和 评论 内 容 翻 译 为 用 户 设 置 的 语言 ; 
态 地 使 用 概率 对 齐 实现 模 态 对 齐 ， 使 得 模型 能 够 从 众多 输入 动 给 视频 添加 隐藏 式 字幕 ， 帮 助 用 户 理解 视频 信息 ; 为 盲人 
言 息 中 按 概率 比率 提取 信息 ， 进 而 输出 预测 结果 。 语 义 对 齐 生成 图 像 说 明 ， 识 别 盲 人 用 户 浏 览 的 图 像 ， 生 成 文字 说 明 并 
则 通过 探索 带 标签 的 数据 集中 ， 标 签 与 数据 之 间 的 子 元 素 对 朗读 文字 ; 人 脸 识 别 能 自动 识别 图 像 中 出 现 的 人 ， 并 标注 任 
齐 信息 ， 构 建 静态 的 语义 对 齐 数据 集 ， 并 通过 构建 模型 学 习 务 名 称 ; 自动 检测 并 删除 不 良 内 容 ， 减 少 社交 网 络 中 的 不 良 
语义 对 齐 信息 , 获得 能 够 产生 包含 语义 对 齐 信息 输出 的 模型 。 信息 ， 构 建 健康 和 谐 的 网 络 环境 ; 内 容 推 送 可 以 根据 用 户 的 
两 种 对 齐 方 式 相 比 ， 在 结构 上 ， 注 意 力 对 齐 模 型 结构 简单 ， 浏览 习惯 自动 推送 用 户 感 兴趣 的 图 像 或 视频 。 
形式 灵活 ; 在 训练 过 程 中 ， 注 意 力 对 齐 模型 中 超 参 数 和 模型 特 斯 拉 为 一 家 电动 车 及 能 源 公司 ， 其 创造 的 自动 驾驶 技 
参数 相对 较 少 ， 训 练 难度 低 ; 在 预测 结果 上 ， 注 意 力 对 齐 能 术 是 一 个 典型 的 多 模 态 应 用 系统 。 自 动 驾 驶 技术 是 通过 电脑 
更 好 的 考虑 到 模 态 元 素 之 间 的 长 期 依赖 关系 ， 但 是 语义 对 齐 系统 实现 无 人 驾驶 汽车 的 技术 ， 其 输入 主要 有 视觉 信息 、 雷 
能 够 产生 语义 对 齐 数据 集 ， 有 着 直观 的 评测 结果 。 在 实际 使 达 信 息 、 全 球 定位 系统 的 位 置信 息 、 语 音信 息 、 自 然 语 言 信 
用 中 ， 注 意 力 对 齐 由 于 其 优势 和 较 好 的 性 能 表现 ， 它 更 频繁 息 等 。 无 人 驾驶 技术 会 自动 识别 视觉 信息 中 的 车 道 标志 线 、 
地 出 现在 了 各 学 习 任 务 中 。 行人 和 汽车 ， 语 音信 息 和 自然 语言 信息 中 的 驾驶 人 命令 ， 雷 
达 信 息 中 的 车 辆 、 行 人 、 障 碍 物 ， 然 后 综合 各 信息 确定 当前 
5 ”实际 多 模 态 系统 汽车 的 行驶 状态 ， 并 决定 汽车 之 后 的 行驶 方向 和 速度 。 
多 模 态 深度 学 习 应 用 范围 广泛 ， 在 语音 识别 和 生成 、 图 苹果 、 和 微软、 亚马逊、 腾讯 、 百 度 、 阿 里 巴巴 等 公司 也 
像 识 别 、 事 件 监测 、 情 感 分 析 和 跨 媒 体检 索 等 方面 均 有 应 用 ， 应 用 了 各 种 机 器 学 习 算 法 构建 了 大 同 小 异 的 多 模 态 应 用 系统 ， 


它 可 以 赋予 机 器 理解 和 融合 图 像 、 语 言 、 文 字 、 视 频 等 模 态 
所 包含 信息 的 能 力 ， 具 有 巨大 的 商业 价值 。 这 吸引 了 很 多 商 


如 苹果 、 微软 、 亚马逊 的 人 工 智能 助手 Siri, Cortana, Alexa; 


图 像 识别 和 标注 ， 阿 里 巴巴 淘宝 的 商品 推荐 系统 ， 百 


腾讯 的 
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度 的 自动 驾驶 ,可 以 到 pee eae ae 
使 用 面部 自然 表情 其 至 与 人 进行 眼神 交流 取得 公民 资格 的 机 6 ”国内 外 多 模 态 深度 学 习 公用 数据 集 
器 人 索菲亚 。 多 模 态 深度 学 习作 为 一 个 有 着 极 大 发 展 潜力 的 深度 学 习 

除 此 之 外 ， 多 模 态 系统 还 应 用 于 导航 、 生 理 病变 研究 、 ”的 研究 方向 ， 大 量 的 研究 机 构 在 对 其 现 有 的 模型 不 断 地 进行 
环境 监测 、 天 气 预报 、 安 全 监控 等 领域 ， 如 生物 医学 图 像 识 ”创新 和 探索 ， 完 善 数 据 集 ， 提 高 多 模 态 深度 学 习 模 型 运算 束 
别 中 的 CT(computed tomography) 技 术 ; 用 图 像 识别 技术 对 航 。” 度 ， 提 高 输出 预测 准确 率 。 在 本 章 列举 常见 的 多 模 态 任务 和 
空 遥 感 和 卫星 遥感 图 像 通常 用 图 像 识 别 技术 进行 加 工 ， 提 取 。 ”其 相应 的 数据 集 ， 并 列 出 学 习 任务 的 学 习 情 况 。 
有 用 信息 ， 进 行 天 气 预报 和 环境 监测 等 ， 采 用 图 像 识 别 技术 表 2 汇总 了 各 多 模 态 深度 学 习 问题 和 其 相应 的 数据 集 ， 
实现 人 脸 识别 、 指 纹 识别 、 车 牌 识别 ， 提 高 社会 安全 水 平 。 。 及 基于 该 问题 和 相应 的 数据 库 学 习 结果 。 

表 2 多 模 态 深度 学 习 问 题 分 类 、 常 用 的 数据 集 和 评价 标准 


Table 2 Multimodal deep learning problem, data sets and evaluation criteria 


多 模 态 深度 学 习 问 题 分 类 常用 数据 集 数据 集 介 绍 最 优 学 习 结果 
LFW 包含 13K 张 图 片 ， 每 个 图 片 平均 包含 2.3 个 人 脸 ACC: 99.78% 
MegaFace 包含 4.7M 张 图 片 ， 每 个 图 片 平 均 包 含 100 个 人 脸 ACC: 86.47% 
AER gA SLLFW 包含 13K 张 图 片 ， 每 个 图 片 平均 包含 2.3 个 人 脸 ACC: 85.78% 
CACD 包含 163K 张 图 片 ， 每 个 图 片 平均 包含 87.7 个 人 脸 ACC: 98.50% 
IJB-A BE 25K 张 图 片 ， 每 个 图 片 平均 包含 11.4 个 人 脸 ACC: 98.20% 
CK+ 包含 123 个 人 的 593 个 脸 部 图 像 序列 ACC; 98.60% 
MMI 包含 75 个 人 的 脸 部 高 分 状 率 图 像 和 2900 个 脸 部 图 像 序列 ACC: 78.53% 
面部 表情 识别 中 FER2013 包含 35887 张 人 脸 图 像 ACC: 75.10% 
SFEW 2.0 包含 1635 张 人 脸 图 像 ACC: 61.60% 
TED 包含 4178 张 人 脸 图 像 ACC: 88.90% 
Fleikr8k 包含 8000 张 图 片 ， 每 个 图 片 有 5 个 注释 语句 BLUE-1:0.670; BLUE-2:0.459; 
De ee Flcikr30k 包含 31783 张 图 片 ， 每 个 图 片 有 5 个 注释 语句 BLUE-1:0.669; BLUE-2:0.462; 
MSCOCO 包含 123287 张 图 片 ， 每 个 图 片 有 5 个 注释 语句 BLUE-1:0.724; BLUE-2:0.555; 
DAQUAR 包含 1449 张 室内 场景 图 片 ， 每 个 图 片 都 有 问答 语句 对 ACC: 46.13%; WUPS@0.9; 51.83 
COCO-QA 包含 123287 张 图 片 ， 每 个 图 片 都 有 一 个 问答 语句 对 ACC: 70.98%; WUPS@0.9: 78.35 
ry 117 hy za i 
EREE HoME PPE eterna k aa EN ACC: 35.8% 
REJA AZ R EY PE 
CLEVR 包含 100000 张 图 像 ， 每 个 图 像 都 有 问答 语句 对 ACC: 55% 
M2VTS 包含 25 个 男性 和 12 个 女性 讲话 的 声音 信号 的 视频 信和 号 ACC; 96.57% 
TULIPS1 包含 7 个 男性 和 5 个 女性 讲话 的 声音 信号 的 视频 信号 EER: 1.74 
视听 语音 识别 3 VidTIMIT 包含 24 个 男性 和 19 个 女性 讲话 的 声音 信号 的 视频 信和 号 EER: 5.23 
CUAVE 包含 19 个 男性 和 17 个 女性 讲话 的 声音 信号 的 视频 信和 号 ACC: 95% 
XM2VTS 包含 未 知性 别 分 布 的 共 295 人 讲话 的 声音 信号 的 视频 信号 ACC: 89% 
机 器 翻译 WMT’14 包含 多 种 欧洲 语言 的 两 两 语言 的 语句 对 BLEU: 41.62 
Wikipedia LA 2806 TOCAR AAI EER, MAP: 0.3608 
每 个 文本 图 像 对 都 标 有 相应 的 语义 类 别 
跨 媒体 检索 020 NUS-WIDE ca CN Sain MAP: 0.365 
NUS-WIDE-10k 为 NUS-WIDE 的 一 个 子 集 MAP: 0.374 
Pascal Sentences 包括 1000 个 图 像 ， 每 个 图 像 对 应 有 5 个 标注 语句 MAP: 0.334 


*ACC: 


准确 率 


(Accuracy, 


率 (equal error rate, 


ACC); BLUE-n: 标注 语句 评 


EER), MAP: 平均 精度 均 


i (Mean average precision, 


价 指标 ，WUPS: 吴 - 帕 尔 默 相 似 (Wu-Palmer similarity, 
MAP) 


WUPS)，EER: 等 错误 


7 ”多 模 态 深度 学 习 的 发 展 方向 


a) 提 出 关于 神经 网 络 的 完备 的 数学 描述 和 理论 体系 。 神 
经 网 络 为 实现 多 模 态 深度 学 习 的 主要 工 
体系 的 成 熟 ， 定 能 给 多 模 态 深度 学 习 带 来 更 多 的 实现 手段 和 


进步 。 


bp) 构建 大 型 多 模 态 数据 库 ， 充 分 发 挥 深度 学 习 技术 在 多 
模 态 数据 集 上 的 学 习 能 力 。 深 度 学 习 的 学 习 效 果 常 取决 于 数 OA 
据 库 所 包含 的 信息 ， 好 的 数据 库 可 以 使 和 
经 网 络 的 过 拟 合 等 问题 。 
c) 探 索 更 精细 的 模 态 数据 特 生 
的 不 同 模 态 的 数据 名 


LAIR, Eas 


HE 


a 


» 4 


经 网 络 的 理论 


dd) 参数 量化 分 析 ， 探 索 简洁 的 参数 ] 


法 。 多 模 态 深度 学 习 的 模型 参数 个 数 往生 


解决 语义 鸿沟 ， 实 现 各 模 态 信息 的 无 障碍 的 交流 互通 ， 为 其 
标 ， 探 索 更 好 的 语义 嵌入 空间 ， 
义 空间 上 实现 更 好 的 信息 交流 。 


制 了 多 模 态 深度 学 习 的 应 用 场景 。 拓 展 凶 
现 高 效 的 训练 算法 ， 实 验 比 较 和 理 ; 


发 


EU SCRA 22 fE] H 


经 网 络 充分 学 习 各 


EE 表示， 不 断 减 小 语义 相同 
FP 距 离 。 多 模 态 表示 中 ， 


as 


BRAS AY HE 77 E EE TE OT FE 


前 的 主要 挑战 。 


6) 赋予 机 器 学 习 数 据 库 外 的 模 态 能 力 , 即 模 态 泛 


使 得 多 模 态 数据 在 语 


E 式 和 高 效 的 训练 算 
E 非 常 多 ， 以 至 于 限 
经 网 络 的 结构 形式 ， 
里 论 分 析 神 经 网 络 处 理 各 


NV 


化 能 力 ， 


上 学 习 的 多 模 态 表示 和 多 模 态 模型 能 够 扒 


E 广 到 未 


在 已 有 模 态 
见 模 态 上 。 再 完 


有 高 效 、 准 确 的 学 习 数 据 库 外 数 # 


鲜 的 数据 库 也 不 能 拥 


全 部 知识 ， 让 机 器 
居 的 能 力 ， 是 多 模 态 深度 学 


录用 定稿 


习 的 必然 产物 。 

人 多 模 态 学 习 中 的 各 种 神经 网 络 结构 的 组 合 形式 ， 有 具有 
人 为 选择 任意 性 ， 没 有 一 个 统一 的 标准 ， 以 便 判 定 这 种 组 合 
式 的 好 坏 。 多 模 态 学 习 的 模 态 表示 学 习 也 没有 一 个 统一 的 
标准 ， 到 底 是 怎样 把 模 态 组 合 起 来 ， 是 一 个 从 理论 到 具体 算 
法 实践 咀 待 解雇 的 问题 。 
外 多 模 态 深度 学 习 的 目标 函数 通常 为 非 凸 优化 问题 ， 目 
前 的 深度 学 习 训 练 算法 不 能 避免 闹 点 问题 ， 导 臻 寻 优 过 程 失 
败 ， 使 得 研究 者 无 法 知道 到 底 是 优化 过 程 没 有 找到 最 优 解 使 
得 预测 结果 不 好 ， 还 是 其 他 的 模 态 表 示 和 模 态 组 合 有 问题 。 
应 该 尽快 提出 求解 非 凸 优化 问题 的 优化 求解 算法 。 


8 ”结束 语 


在 深度 学 习 飞 速 发 展 的 当下 ， 人 工 智 能 逐渐 走 上 历史 舞 
台 ， 而 赋予 机 器 接受 、 综 合 、 处 理 各 种 外 界 信息 ， 并 对 接受 
的 信息 作出 反映 ， 则 是 对 人 工 智 能 的 基本 要 求 。 多 模 态 深度 
学 习 则 为 实现 该 基本 要 求 的 一 种 有 效 的 手段 。 本 文 总 结 了 多 
模 态 深度 学 习 的 现状 ,对 深度 学 习 在 多 模 态 学 习 中 模 态 表示 、 
模 态 传译 、 模 态 融合 以 及 模 态 对 齐 方面 的 应 用 进行 了 总 结 。 
模 态 表示 是 多 模 态 深 ee 
以 什么 数据 形式 存储 在 电脑 中 。 模 态 表示 分 为 单 模 态 表示 和 
多 模 态 表示 ， 语 句 、 等 模 态 为 单 模 态 表示 的 主要 
处 理 对 象 ， 多 模 态 表示 基于 单 模 态 表示 ， 按 照 其 融合 模 态 信 
息 的 方式 分 为 了 模 态 共 作 用 语义 表示 和 模 态 约束 语义 表示 。 
模 态 传译 指 将 模 态 中 包含 的 信息 传译 存储 在 另 一 个 模 态 中 ， 
按照 传译 结果 的 可 预测 性 分 类 。 模 态 传译 分 为 有 界 传译 和 开 
放 性 传译 。 有 界 传译 指 将 源 模 态 中 的 一 个 元 素 传译 为 目标 模 
态 集合 中 的 某 个 元 素 或 多 个 元 素 ， 开 放 性 传译 指 传译 结果 为 
目标 模 态 集合 中 的 有 前 后 顺序 关系 的 多 个 元 素 组 成 的 序列 。 
模 态 融合 指 综合 来 自 两 个 或 多 个 模 态 的 信息 以 进行 预测 的 过 
程 。 模 态 融 合 按照 信息 融合 的 方式 ， 分 为 前 融合 、 后 融合 和 
混合 融合 。 模 态 对 齐 指 辨别 来 自 两 个 或 两 个 以 上 的 不 同 模 态 
的 元 素 之 间 的 关系 。 模 态 对 齐 中 ， 常 用 的 两 种 方式 为 注意 

对 齐 模 态 元 素 和 语义 对 齐 模 态 元 素 。 多 模 态 深度 学 习 中 ， 模 
态 表 示 、 模 态 传译 、 模 态 融合 和 模 态 对 齐 这 四 个 方面 的 研究 
进度 并 不 相同 。 模 态 融合 已 经 经 过 了 较 长 时 间 的 研究 ， 但 是 
期 在 模 态 表示 、 模 态 传译 和 模 态 对 齐 上 的 研究 也 促进 了 大 
二 模 态 算法 的 产生 ， 并 且 拓 展 了 多 模 态 学 习 的 应 用 
目 。 作 为 一 种 能 让 机 器 拥有 更 多 人 类 智能 特性 的 学 习 方 法 ， 
HEY 条 度 学 习 定 能 在 之 后 的 一 个 时 期 获得 长 足 的 发 展 。 
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